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Avant-propos 



Ilm’a paru interessant d’aborder du meme coup un domaine en pleine ex- 
pansion que j’ai eu l'occasion d Explorer pendant mes activites de recherche, 
a savoir les systemes dynamiques. II ne s’agit ici que d’illustrer la contribu- 
tion des methodes numeriques au developpement de ce champ d’activites. 
J ’attire tout au plus Pattention sur quelques comportements des systemes 
dynamiques qui peuvent etre observes a l’aide de methodes numeriques ele- 
ment air es. 

L’approche pedagogique de ce manuel repose sur une comprehension pro- 
fonde des methodes plutot que sur P aspect calculatoire. Cel a signifie que les 
exemples choisis cherchent avant tout a illustrer differents aspects des me- 
thodes et a souligner leurs a vantages et leurs jnconvenients, Cette approche 
est justifiee en partie par le fait que de plus en plus d’ingenieurs utilisent des 
outils logiciels commerciaux. L’objectif de ce manuel est done de faire des 
etudiants des utilisateurs intelligents, en ce sens qu’ils sauront exactement 
a quoi s’attendre de chaque methode et qu’ils seront en mesure de valider 
leurs result at s. 

En terminant, j’aimerais remercier toutes les personnes qui ont contribue 
a la realisation de ce manueL En particular, Mme Carole Burney- Vincent et 
M. Gilies Savard du departement de mathematiques et de genie indust riel ont 
patiemment lu et commente plusieurs chapitres. M, Robert Roy a accepte de 
se servir d’une version preliminaire pour 3e corns d T analyse numerique donne 
pendant Pete de 1994; ses remarques et ses suggestions ont ete tres utiles, J’ai 
egalement pu compter sur la collaboration de toute l’equipe professorate du 
cours d’analyse numerique, II me faut egalement souligner la participation 
du Service Pedagogique de PEcole Polytechnique de Montreal. 

Enfin, je ne peux passer sous silence Pappui inconditionnel de mon epouse 
Marie et de mes fils Michel et Jean-Philippe qui ont du, entre autres choses, 
suhir mes absences frequentes lors de la redaction et de la mise en pages 
finale de cet ouvrage, Je tiens de plus a souligner que la page couverture de 
ce manuel est inspiree des dessins de Michel et Jean-Philippe. 

Veuillez tous trouver ici Texpression de ma plus profonde reconnaissance. 
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Chapitre 1 

Analyse d ’erreurs 



1.1 Introduction 

Les cours traditionnels de mathematiques none fam ill ari sent avec des 
theories et des methodes qui permettent de resondre de fagon anatyiique 
un certain nombre de problemes. C’est le cas notamment des techniques 
d ’integration et de resolution d’equations algebriques ou differentielles. Bien 
qu’on puisse proposer plusieurs methodes pour resondre un probleme donne, 
celles-ci conduisent a un meme resnltat, precis et unique. 

C’est id que Panalyse numerique se distingue des autres champs plus 
classiques des mathematiques, En effet, pour un probleme donne, il est pos- 
sible d’utiliser plusieurs techniques de resolution qui resultent en differents 
algorithm es. Ces algorithmes dependent de certains parametres qui influent 
sur la precision du result at. De plus, on utilise en cours de calcul des ap- 
proximations plus ou moins precises. Par exemple, on peut remplacer une 
derivee par une difference finie de fa^on a transformer une equation differen- 
tielle en une equation algebrique. Le result at final et son degre de predsion 
dependent des choix que l’on fait. 

Une partie importante de l’analyse numerique consiste done a contenir 
les effets des erreurs ainsi introduces, qui proviennent de trois sources prin- 
cipals : 

• les erreurs de modelisation; 

• les erreurs de representation sur ordinateur; 



• les erreurs de troncature. 
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Les erreurs de modelisation, comme leur nom Findique, proviennent de 
Petape de mathematisation du phenomene physique auquel on s’interesse. 
Cette etape consiste a faire ressortir les causes les plus determin antes du 
phenomene observe et a les mettre sous forme donations ( different ielles le 
plus sou vent). Si le phenomene observe est tres complexe, il fant simplifier 
et negliger ses composantes qui paraissent moins import antes ou qui rendent 
la resolution numerique trop difficile, C’est ce que Fon appelle les erreurs de 
modelisation. 

La seconde categorie d ’erreurs est liee a Fntilisation de Fordinateur. En 
efTet, la representation sur ordinateur (generalement binaire) des nombres 
introduit souvent des erreurs. Meme infimes au depart, ces erreurs peu- 
vent s’accumuler lorsqu’on effect ue un tres grand nombre d ’ope rations, Par 
exemple, la fraction l/3n’a pas de representation binaire exacte, car elle ne 
possede pas de representation decimale finie. Ces erreurs se propagent au fil 
des calculs et peuvent compromettre la precision des resultats, 

Enfin, les erreurs de troncature proviennent principalement de l’utilisa- 
tion du developpernent de Taylor, qui per met par exemple de remplacer 
une equation differentielle par une equation algebrique. Le developpernent 
de Taylor est le principal outil mathematique du numericien, II est done 
primordial d’en m ait riser Penonce et ses consequences, 

Ce chapitre traite done principalement d ’erreurs numeriques, et non des 
inevitables erreurs de program mation qui font, helas, partie du quotidien 
du numericien. II devrait permettre au lecteur de mieux gerer les erreurs au 
sein des processus numeriques ahn d’etre en mesure de mieux interpreter les 
resultats. 

Tout d’abord, un peu de terminologie est necessaire pour event uellement 
quantifier les erreurs. 



Definition 1.1 

Soit or, un nombre, et une approximation de ce nombre, Uerreur 
absolue est definie par: 



Ax = \x - x*\ 



(i.i) 
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Definition 1.2 

Soit x , un nombre, et x*, une approximation de ce nombre, L 'erreur 
relative est definie par: 



E r (x) 



\x-x*\ 




( 1 . 2 ) 



De plus, en multi pliant par 100 %, on obtient Verreur relative en pour- 
centage. 



En pratique, il est difficile d’evaluer les erreurs absolue et relative, car on 
ne connait generalement pas la valeur exacte de x et on n’a que x*. Dans le 
cas de quantites mesurees dont on ne connait que la valeur approximative, 
il est impossible de calculer Terre ur absolue; on dispose en revanche d’une 
borne superieure pour cette erreur qui depend de la precision des instruments 
de mesure utilises* Cette borne est quand meme appelee erreur absolue, alors 
qu’en fait on a: 

\x-x*\ < Ax 

ce qui peut egalement s’ecrire: 



x * — Ax < x < x* + Ax 



(1.3) 



et que Ton note parfois x = r*±Ai. On peut interpreter ce resultat en disant 
que Ton a estime la valeur exacte x a partir de 2 * avec une incertitude de 
Ax de part et d’autre* 

L’erreur absolue donne une mesure quantitative de Terreur commise et 
Terreur relative en mesure Timportance* Par exemple, si on fait usage d’un 
chronometre dont la precision est de Tordre du dixieme de seconde, Terreur 
absolue est bornee par 0,1 s. Mais est-ce une erreur importante? Dans le 
contexte d’un marathon d’une duree de 2h 20 min, Terreur relative liee au 
chronometrage est tree faible: 



0,1 

2 x 60 x 60 + 20 x 60 



0,000 0119 



et ne devrait pas avoir de consequence sur le classement des coureurs. Par 
contre, s’il s’agit d’une course de 100 m d’une duree d ’environ 10 s, l’erreur 
relative est beaucoup plus importante: 



0,1 

10,0 



0,01 
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soit 1 % du temps de course. Avec une telle erreur, on ne pourra vraisem- 
blablement pas faire la difference entre le premier et le dernier coureur. 

Cela nous amene a parler de precision et de chiffres significatifs au sens 
de la definition suivante. 



Definition 1.3 

Si Perreur absolute verifie 

Ax < 0,5 X 10 m 

alors le chiffre correspondant a la m e puissance de 10 est dit significatif 
et to us ceux a sa gauche (correspondant aux puissances de 10 superieures 
a m) le sont aussi. 



Exemple 1.1 

On obtient une approximation de n (x = ?r) au moyen de la quantite 22/7 
(x* = 22/7 = 3,142 857 ■ * *). On en conclut que; 

22 

Ax = 1 7T — ™| = 0,001 26 * * * 

Puisque Perreur absolue est plus petite que 0,5 x 1Q“ 2 , le chiffre des cen- 
times est significatif et on a en tout 3 chiffres significatifs (3,14). 



Exemple 1.2 

Si on retient 3,1416 comme approximation de tt, on a: 

Ax = |ff - 3,1416| ~ 0,73 x 10" 5 

et Perreur absolue est inferieure a 0,5 x 10 Le chiffre correspondant a cette 
puissance de 10 (6) est significatif au sens de la definition, ainsi que tous les 
chiffres situes a sa gauche, II est a remarquer que le chiffre 6 dans 3,1416 est 
significatif meme si la quatrieme decimale de ?r est un 5 (3,141 59 ■ • ■). 
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L ’approximation 3,1416 possede done 5 chiffres significatifs. 



Remarque 1.1 

Inversement, si un n ombre est donne avec n chiffres significatifs, cela signifie 
que Perreur absolue est inferieure a 0,5 fois la puissance de 10 correspondant 
an dernier chiffre significatif, □ 



Exemple 1.3 

On a mesure le poids d’une personne et trouve 90,567 kg. On vous assure 
que Pappareil utilise est suffisamment precis pour que tous les chiffres founds 
soient significatifs, D’apres la definition, puisque le dernier chiffre significatif 
correspond aux milliemes (milligrammes), cela signifie que: 

Ax < 0,5 x 10 -3 kg 

En pratique, on conclut que: 

Ax = 0,5 x 1(T 3 kg 



1.2 Erreurs de modelisation 

La premiere etape de la resolution d’un probleme, et peut-etre la plus deli- 
cate, consiste a modeliser le p hen omene observe. H s’agit en gros d’identifier 
tous les facteurs internes et externes qui influent (ou que I ’on soup^onne 
d’influer) sur les resultate. Dans le cas d’un phenomene physique, on fait 
Tinventaire des forces en presence: gravitationnelle, de friction, elect rique, 
etc. On a par la suite recours aux lois de conservation de la masse, de l’ener- 
gie, de la quantite de mouvement et a d’autres principes mathematiques pour 
traduire 1 influence de ces different s facteurs sous forme d ’equations. Le plus 
souvent, on obtient des equations different ielles ou aux derivees partielles. 

L ’effort de modelisation produit en general des systemes d’equations com- 
plexes qui comprennent un grand nombre de variables inconnues. Pour reus- 
sir a les resoudre, il faut simplifier certaines composantes et negliger les moins 
import antes. On fait alors une premiere erreur de modelisation. 




6 



CTiapitre 1 




Figure 1.1: Probleme du pendule 



De plus, raeme bien decompose , un phenomene physique peut etre difficile 
a met t re sous forme d’equations, On introduit alors un modele qui decrit au 
mieux soil influence, mais qui demeure une approximation de la realite. On 
commet alors une deuxieme erreur de moderation . Illustrons cette demarche 
a Faide d’nn exemple. 



Exemple 1.4 

Le probleme du pendule est connu depuis tres longtemps (voir par exemple 
Simmons, ref, [20]), Une masse m est suspendue a une corde de longueur 
/ (voir la figure 1,1). Au temps t — 0, on suppose que P angle 0(0) entre la 
corde et la verticale est 0 O et que sa vitesse angulaire 0'(O) est 0£. Les forces 
en presence sont la gravite agissant sur la masse et la corde, d’une part, et 
la friction de Pair agissant sur tout le systeme, d ’autre part. 

Suivant la deuxieme loi de Newton, la force due a V acceleration tangen- 
tielle ml9 ft {t) est equilibree par la composante tangentielle de P acceleration 
gravitationnelle ra0sm(0(£)) et par la force de friction Fj qui suppose au 
mouvement. On a alors: 



~ —mg sm(9(t)) — Fj 
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Pour connaitre comment se comporte la force de friction Ff en fonction de 
0(f), ii faut recourir a des mesures experiment ales, qui demontrent que la 
friction est a peu pres proport ion nelle a la vitesse W f (t) avec nn coefficient 
de proportionnalite cy- D est important de remar quer que cette loi est ap- 
proximative et que le coefficient cy est obtenu avec une precision limitee. 
Tout cela entraine des erreurs de modelisation. 

On obtient une equation differentielle du second ordre: 



grt^ _ c J 8 '( t ) gsm(8(t)) 

771 / 


(1.4) 


0(0) = 00 


(1.5) 


II 

o 

— ■" 


(1.6) 



L’equation differentielle 1.4 est non lineaire et on demontre qu’elle ne possede 
pas de solution analytique simple. 

Une breve analyse montre qu’il est raisonnable de negliger la friction 
de Fair, car les vitesses de mouvement sont faibles. D s’agit encore d’une 
erreur de modelisation, qui parait acceptable a cette etape de 1 ’analyse. Si 
les result at s s’averent insatisfaisants, il faudra revenir en arriere et identifier, 
par mi les forces negligees, celle qui etait la plus importante, Une analyse 
adimensionnelle est souvent necessaire pour y arriver. 

Meme en negligeant la friction, ce qui revient a poser cy — 0, Tequation 
resultante ne possede toujours pas de solution simple. En effet, sa resolution 
fait intervenir les integrates elliptiques (Simmons, ref. [20]) qui ne peu vent 
s’exprimer en fonctions element aires. Puisque tel est le but, on doit encore 
simplifier le probleme. On peut par exemple sup poser que les angles sont 
petits et que: 

sin(0(t)) ^ 8(t) 

H en resulte le probleme simplifie suivant: 



«"(«) = 9 w 


(1.7) 


0(0) = 0 O 


(1.8) 


fl'(O) = 0o 

L ’equation 1.7 possede la solution periodique classique: 


(1.9) 


0(i) = A cos(wt) + B sin(o>£) 


(1.10) 


ou u? 2 = g/l et les constantes A et B sont determinees par les conditions 
initiales (A = 9q, B = O^fu?), 
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Friction non negligee 




Friction negligee 

Figure 1,2: Deux solutions au probleme du pendule 



La figure 1.2 permet la comparaison entre les solutions des equations 
differ entielles 1.4 et 1.7 dans le cas ou $o = 0,1 et Bq = 0. Liquation 1.10 
est la solution analytique de [’equation different telle 1.7, alors que l’equation 
differentielle 1.4 ne possede qu’une solution numerique (nous la reverrons au 
chapitre 7). On remarque immediatement que la solution numerique (ou la 
friction n } est pas negligee) prevoit Tamortissement du mouvement avec le 
temps, tandis que la solution analytique reste parfaitement periodique. La 
solution numerique est de toute evidence plus pres de ce que Y on observe 
pour un pendule. 
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Remarque 1.2 

Les erreurs de moderation, quoique tres import antes, ne font pas partie de 
la matiere de ce livre. Nous faisons Phypothese que les problemes etudies 
sont bien modelises, bien que ce ne soit pas toujonrs le cas en pratique. □ 



1.3 Representation des nombres sur ordinateur 

Un ordinateur ne peut trailer les nombres de la meme maniere que Petre 
humain, H doit d’abord les representer dans un systeme qui permette Pexe- 
cution efficace des di verses operations. Cela peut entrainer des erreurs de 
representation sur ordinateur , qui sont inevitables et dont il est souhai table 
de comprendre Porigine aHn de mieux en maitriser les effets. Cette section 
presente les principaux elements d’un modele de representation des nombres 
sur ordinateur. Ce modele s’avere utile pour comprendre le fonctionnement 
type des ordinateurs; il ne peut bien entendu tenir compte des caracteris- 
tiques sans cesse changeantes des ordinateurs modernes. 

La structure interne de la plupart des ordinateurs s’appuie sur le systeme 
binaire. L T unite d ’information ou bit prend la valeur 0 ou 1. Evidemment, tres 
peu d’mformation peut etre accumulee au moyen d ? un seul bit. On regroupe 
aJors les bits en mots de longueur variable (les longueurs de 8, de 16, de 32 
ou de 64 bits sont les plus courantes). Les nombres, entiers et reels, sont 
represent es de cette maniere, bien que leur mode precis de representation 
depende du fabricant, 

1.3.1 Representation des entiers signes 

Nous traitons de trois formes parmi les plus courantes de representation 
des entiers sur ordinateur. Plusieurs autres variantes existent, et il importe de 
connaitre ceile qui est utilisee par Pordinateur afin de pouvoir s’y retrouver. 

Pour transformer un entier positif N dans sa representation binaire liabi- 
tueUe, il faut determiner les a t tels que: 



(N)w = (a n _i« n _ 3 a n _3 ' - ' 0201^0)2 



ou encore 



N = a n -i x 2 n 1 + a„_2 x 2” -2 + a n _ 3 X 2 B-3 H + a 2 x 2 2 + ai x 2 1 +a 0 X 2° 
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Figure 1.3: Representation signe et grandeur sur 16 bits d’un entier 



Dans ce qui precede, le sous-indice indique la base utilisee. On obtient la 
valeur des a* en suivant la demarche suivante: en divisant TV par 2, on obtient 
a 0 (le reste de la division) plus un entier; on refait le meme raisonnement 
avec la partie entiere de TV/2 (en negligeant la partie fractionnaire ou reste) 
pour obtenir on continue ainsi jusqu’a ce que la partie entiere soit nulle. 



Exemple 1.5 

Si N = (lOOO)io, on a: 



1000/2 


= 


500 


reste 0 


c.-a-d* 


0 

II 

0 

a 


500/2 


= 


250 


reste 0 


c.-a-d. 


Qj = 0 


250/2 


— 


125 


reste 0 


c*-a-d. 


g 2 — 0 


125/2 


— 


62 


reste 1 


c.-a-d* 


03 = 1 


62/2 


= 


31 


reste 0 


c.-a-d. 


a 4 = 0 


31/2 


= 


15 


reste 1 


c.-a-d* 


a 5 = 1 


15/2 


= 


7 


reste 1 


c.-a-d. 


a 6 = 1 


7/2 


= 


3 


reste 1 


c*-a-d. 


07 = 1 


3/2 


— 


1 


reste 1 


c.-a-d* 


= 1 


1/2 


— 


0 


reste 1 


c*-a-d. 


09 = 1 



Ainsi, rentier decimal 1000 s’ecrit 11 1110 1000 en base 2* 



Voyons maintenant quelques variantes de representation binaire des en- 
tiers signes: la representation signe et grandeur, la representation en 
complement a 2 et la representation par exces* Ces variantes presentent 
toutes un certain nombre d ^vantages et d ’inconvenient s au regard de Pexe- 
cution des operations arithmetiques element aires. 

Representation signe et grandeur 

Pour illustrer la representation signe et grandeur, il suffit de prendre un 
exemple, Considerons un mot de 16 bits tel qu’illustre a la figure 1,3. Dans 
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cette represent at ion , un bit (le premier) est consacre an signe: 

0 pour nn entier positif 

1 pour un entier negatif 

Les ant res bits peuvent alors servir a la representation de Pentier lui-meme. 
Ainsi: 

0101 1100 1010 0100 = 

+ (l x 2 14 + 0 x 2 13 + 1 x 2 12 + ■ ■ * + 1 x 2 Z + 0 x 2 1 + 0 x 2°) 

est la representation binalre du nombre decimal 23 716. Le premier bit (0) 
indique nn entier positif. Le plus grand entier representable dans ce cas est 
bien sur 0111 111111111111 qui represente 32767, c’est-a-dire 2 15 - 1 en 
base 10. II est a remarquer que le nombre 0 peut etre represente de deux 
fa^ons, a savoir: 

+0 = 0000 0000 0000 0000 

-0 = 1000 0000 0000 0000 

Un mot de 16 bits per met d ’exprimer tous les entier s compris entre —32 767 
et +32 767, Si un calcul sur des nombres entiers resulte en un entier su- 
perieur a 32 767, le compilateur enverra un message d’erreur indiquant un 
dehovdement (overflow), 

Remarque 1.3 

Dans la representation signe et grandeur et egalement dans les representa- 
tions qui suivent, nous utilisons la convention que le premier bit est celui 
situe le plus a gauche. En inform atique, on utilise plus sou vent une numero- 
tation des bits allant de 0 jusqu’a n — 1 en commen^ant par le bit le plus a 
droite dit le moins significatif n 



Representation en complement a 2 

La representation en complement a 2 est tres frequemment utilisee. Si on 
dispose de n bits pour exprimer Pentier JV, on pose: 

N = -a n _i x2" -1 + a I1 _ 2 x2” -2 +a„_3x2" _3 + - ■• + a 2 x2 z +o 1 x2 1 +a 0 x2° 

H faut remarquer le signe negatif devant le terme a n _! , On constate facile- 
ment que tous les entiers positifs verifient: 



On-l = 0 
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Les entiers positifs sont done representes par 0 suivi de leur expression 
binaire habituelle en (n — 1) bits. Pour obtenir la representation d’un nombre 
negatif, il suffit de lui ajouter 2 n ~ 1 et de transformer le result at en forme 
binaire. 



Exemple 1.0 

La representation sur 4 bits de 0101 vaut: 

-0 X 2 3 + 1 x 2 2 + 0 x 2 1 + 1 x 2° 

soit 5 en forme decimale. Par contre, 1101 vaut: 

-1 x 2 3 + 1 x 2 2 + 0 x 2 1 + 1 x 2° 

e’est-a-dire —8 + 5 = —3, Inversement, la representation binaire de — 6 sera 
1 suivi de la representation sur 3 bits de: 

-6 + 2 3 - 2 

qui est 010. On aura done (— 6)io = (1010)2 dans la representation en com- 
plement a 2. 



Representation par exces 

Dlustrons la representation par exces en prenant pour exemple un mot de 
4 bits (n = 4). On peut alors representer au plus 2 4 (2 n dans le cas general) 
entiers different s, y compris les entiers negatifs. Si on vent exprimer un entier 
decimal N , il suffit de lui ajouter un exces d et de donner le resultat sous 
forme binaire. Inversement , si on a la representation binaire par exces d*un 
entier, il suffit de calculer sa valeur en base 10 et de soustraire d pour obtenir 
Pentier recherche. 

La representation par exces a l’avantage d’ordonner la representation 
binaire en assignant a 0000 le plus petit entier decimal representable, a savoir 
- d . En general, la valeur de d est 2 n_1 (2 3 sur 4 bits). Ainsi, avec 4 bits et 
d = 2 3 , on obtient: 
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Forme binaire 


Forme decimale 


0000 


-8 


0001 


-7 


1110 


+6 


1111 


+7 



Four obtenir ce tableau, il suffit de remar quer que, par exemple, 1111 vaut 
15 en decimal, auquel oil soustrait 2 3 pour obtenir 7, 



Exemple 1.7 

Soit un mot de 8 bits et un exces d = 2 7 := 128. Pour representer (— 100)io, 
il suffit de lui ajouter 128, ce qui donne 28, et d’exprimer le resultat sur 8 
bits, soit 0001 1100. 



Remarque 1.4 

Il existe d’autres representations des entiers signes, comme la representation 
en complement d L Notre but n*etant pas d’en donner une liste exhaustive, 
nous nous Umitons a celles qui ont deja ete presentees, n 



1.3.2 Representation des nombres reels 

La tache de representation est plus complexe dans le cas des nombres reels. 
En effet, dans le systeme decimal, nous avons Phabitude de repr^senter un 
nombre x sous la forme: 

x = m x 10* 

oil m est la mantisse , l est Vexposant et 10 est la base . De fa^on generale, 
selon une base b quelconque, on peut ecrire: 

x — m X 

La forme generale de la mantisse est la suivante: 



m = 0 ,did 2 <f 3 - ■ * d n 





14 



Chapitre 1 



ce qui signifie que: 

Tn = x b d >2 x 6 ^ d$, x 6 ^ -f- ' * ’ 4" d n x 6 

ou n est le nombre de chiffres de la mantisse. Les d* verifient: 

1 <dt <(b- 1) (1.11) 

0 < di <(6—1) pour i = 2, 3, ■ * 7i (1,12) 

La premiere inegalite signifie que la mantisse est normalisec, c’est-a-dire 
que sou premier chiffre est toujours different de 0. La normalisation permet 
d’assurer Punicite de la representation et d’eviter les ambigui'tes entre: 

0,1020 X 10 2 et 0,0102 x 10 3 

pour representer 10,2. La derniere expression n’est jamais retenue. Dans cet 
exemple, on a utilise la base b = 10 et n = 4 chiffres dans la mantisse, Ainsi, 
la mantisse satisfait toujours: 

7 < m < 1 
6 

car la plus petite mantisse possible est 0,1000* qui vaut 1/6. 

Ces considerations servent de lignes directrices pour la representation 
d’un nombre reel sur ordinateur. Dans le cas qui nous interesse, la base 
sera generalement 2 (6 = 2). II faut done trouver un moyen de representer la 
mantisse (une fraction), Pexposant (un entier signe) et le signe de ce nombre. 

Remarque 1.5 

Les calculat rices de poche se disting uent des ordinateurs principalement par 
le fait qu^elles utilisent la base 10 (6 = 10) et une mantisse d’une longueur 
d’environ 10 (n = 10). L’exposant l varte generalement entre -100 et 100. □ 

Considerons a titre d’exemple un mot de 8 bits tel que Pillustre la fi- 
gure 1.4. H est entendu qu’en pratique les mots sont beaucoup plus grands. 
Le premier bit donne le signe du nombre. II reste done 7 bits pour represen- 
ter la mantisse et Pexposant. On retient 3 bits pour Pexposant et les 4 bits 
suivants pour la mantisse. II est a noter que cette derniere est normabsee et 
que son premier bit est toujours 1 . II faut ensuite determiner queile est la re- 
presentation utilisee pour l’exposant. Par exemple, si Pexposant est exprime 
suivant la representation signe et grandeur , alors 0101 1011 se decompose de 
la fagon suivante: 
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0 


1 


0 


T1 


1 


0 


1 


1 


+ 


- 


2 1 


2° , 
l_ 




2-2 


2-3 


2^ 



Exposant Manlisse 



Figure 1,4: Representation signe et grandeur sur 8 bits d*un reel 



Signe 


Exposant 


Mantisse 


0 


101 


1011 



Ce nombre est done positif. L’exposant est negaiif et vaut: 

-(0 x 2 1 + 1 x 2°) = -1 

et la mantisse est: 

1 x 2- 1 + 0 x 2 -2 + 1 x 2~ 3 + 1 x 2~ 4 = 0,6875 
Ainsi, 0101 1011 represente le nombre decimal: 

0,6875 x 2 _1 = 0,343 75 

Par contre, si Pexposant est exprime suivant la representation en comple- 
ment a 2 , la valeur binaire 101 qui represente Pexposant signifie alors —3 et 
(0101 1011)2 vaut 0,0859375 en base 10. 

Conversion d’une fraction decimale en valeur binaire 

La methode de conversion d’une fraction decimale en valeur binaire est 
similaire a celle que Pon utilise dans le cas des en tiers. Soit /, line fraction 
decimale comprise entre 0 et 1. D faut done trouver les di tels que: 

(/)io — (0,did 2 d3 * * m )2 

ou encore 

/ = di X 2 _1 -f d 2 x 2“ 2 + d 3 x 2~ 3 -| 

Si on multiple / par 2 ? on obtient di plus une fraction. En appliquant 
le meme raisonnement a (2/ — di), on obtient d 2 . On poursuit ainsi jusqu’a 
ce que la partie fractionnaire soit nulle ou que Pon ait atteint le nombre 
maximal de chiffres de la mantisse. 
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Exempie 1.8 

Si / = 0,0625, on a: 



0,0625 x 2 = 0,1250 


c.-a-d. 


di = 0 


0,1250 x 2 = 0,2500 


c.-a-d. 


O 

II 

CM 


0,2500 x 2 = 0,5000 


c.-a-d. 


o 

11 

^3 


0,5000 x 2 = 1,0000 


c.-a-d* 


d 4 = 1 



ce qui signifie que (0,Q625)io = (0,0001)2- 



Exemple 1.9 

Si / = 1/3, on a: 



1/3x2 = 


0 + 2/3 


c.-a-d. 


di = 0 


2/3x2 = 


1+1/3 


c*-a-d. 


d 2 = 1 


1/3X2 = 


0+2/3 


c.-a-d* 


ds = 0 


2/3x2 = 


1 + 1/3 


c.-a-d. 


d 4 = 1 



On pent ponrsuivre la conversion a Pinfini et demontrer que: 

I = (0,010 101 -"Ja 

En pratique, puisqu’on n utilise qu’un nombre fini de chiffres dans la man* 
tisse, il faudra s’arreter apres n bits* 



Norme IEEE 

L ’Institute for Electrical and Electronic Engineers (IEEE) s’efforce de 
rendre aussi uniformes que possible les representations sur ordinateur. II 
propose nne representation des nombres reels en simple precision sur 32 bits 
et en double precision sur 64 bits (convention IEEE- 754). Les representations 
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en simple et double precision sont construites comme suit, Le premier bit 
temoigne du signe du nombre, les 8 bits suivants (11 en double precision) 
determinent l’exposant avec un exces de 127 ou 2 6-1 — 1 (1023 ou 2 11_1 — 1 
en double precision) et les 23 dermers bits (52 en double precision) sont 
pour la mantisse normalisee. Puisque Ton normalise la mantisse, le premier 
bit est toujours 1 et il n’est pas necessaire de le garder en memoir e. La 
mantisse normalisee peut done commencer par un 0 tout en conservant la 
meme precision qu’avec 24 bits (53 en double precision). 

Ainsi, snivant la notation de Cheney et Kincaid (ref, [5]), les 32 bits de 
la representation en simple precision IEEE: 



(did 2 dz * • 2)2 

designent le nombre decimal: 

(-1)* X 2^- ds ^ x 2 -127 x (l,diodu ■ ■•d 32 )2 

On remarque immediatement les differentes composantes: le bit de signe, 
Pexposant avec un exces de 127 et la mantisse normalisee par Pajout du 1 
manquant. 

Remarque 1,6 

La norme IEEE trait e le nombre reel 0 de fa^on particuliere, □ 



Exemple 1.10 

Les 32 bits suivants (en simple precision IEEE): 

1100 0001 1110 0000 0000 0000 0000 0000 

se decomposent en: 

(-1) 1 x 2( 10000011 )’ x 2- m x ( 1 , 11)2 
= — 2 131 x 2" 127 x (1 + 2 -1 + 2~ 2 ) 



= -16 X 1,75 = -28 

On obtient la representation du nombre decimal (30,0625) 10 en simple pre- 
cision an moyen de Pope ration inverse. Tout d’abord, la partie entiere (30)io 




18 



Chapitre 1 



devient (11110)2 en forme binaire et la partie fractionnaire (0,0625)io est 
tout simplement (0,0001)2- Ainsi, on a: 

(30,0625)io = (11 110,0001)2 = 1,111 00001 x 2 4 

Dans la derniere expression, la mantisse est normalisee et le bit 1 a la gauche 
de la virgule n’est pas conserve en memoire. L’exposant 4 est decale de 
127 pour devenir 131. La representation de 131 sur 8 bits est (1000 0011)2- 
Pulsque le nombre (30,0625) 10 est posit if, sa representation en simple preci- 
sion IEEE sera; 

0 1000 0011 1110 0001000000000000000 



1.4 Erreurs dues a la representation 

Le fait d’utiliser un nombre limit e de bits pour representer un nombre 
reel a des consequences importantes sur la propagation des erreurs. On peut 
par exemple rechercher quel est le plus petit nombre positif representable sur 
8 bits (voir la figure 1.4). En clioisissant la representation signe et grandeur 
pour Texposant, on constate que le nombre doit etre positif (0), que son 
exposant doit etre negatif (1), que sa valeur doit etre la plus petite possible 
compte tenu du signe (11) et, enfin, que la mantisse doit etre la plus petite 
possible compte tenu de la normalisation (1000). On obtient: 

om 1000= (1 x 2- 1 ) x 2 -3 

qui vaut 0,0625. Consequemment, on ne peut pas representer tout nombre 
reel positif plus petit que 0,0625 dans ce systeme a 8 bits. Un calcul resultant 
en un nombre plus petit que 0,0625 donnerait lieu a un sous-depassement 
( underflow ). 

On peut se demander quel serait le nombre suivant. II s’agit bien sur de 
0111 1001, dont la valeur decimale est 0,0703125. II n’est done pas possible 
de representer exactement sur 8 bits les nombres entre 0,0625 et 0,0703125. 
Si on cherche par exemple a representer le nombre reel 0,07, Tordinateur 
choisira soit 0111 1000 (e’est-a-dire (0,0625)io), soit 01111001 (e’est-a-dire 
(0,070 3125)io)- Le choix depend de Putilisation de la troncature ( chopping ), 
qui consiste a choisir systematiquement la borne inferieure, ou de Varrondi 
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(rounding ) , qui consiste a choisir la borne inferieure seulement si le nombre 
qne Poll souhaite representer est plus petit que: 

0,0625 + 0,070 3125 

2 

Par ailleurs, le plus grand nombre representable sur 8 bits est 0011 1111, qui 
vaut 7,5. Tout calcul resultant en un nombre plus grand que 7,5 donnerait 
lieu a un debordement. 

Get exemple sur 8 bits exagere grandement les effets de la representa- 
tion des nombres r£els sur ordinateur. Personne ne songe a faire des calculs 
numeriques avec seulement 8 bits. Si on travaille avec plus de bits, le plus 
petit nombre representable devient de plus en plus petit et Pecart entre 
les nombres represent able s diminue egalement. Les conclusions qui suivent 
restent cependant vraies, 

• Quel que soit le nombre de bits utilises, il existe un plus petit et un 
plus grand nombre positifs representables (de meme pour les nombres 
negatifs). II existe done un intervalle fini a Pexterieur duquel on se 
heurte inevitablement a un debordement ou a un sous-depassement. 

• A Pinterieur de cet intervalle fini, seulement nn nombre fini de nombres 
sont representables exactement, et on doit recourir a la troncature ou 
a Parrondi pour repr^senter les autres reels. 

La representation en point flottant induit une erreur relative qui de- 
pend du nombre de bits de la mantisse, de PutiKsation de la troncature ou 
de Parrondi ainsi que du nombre x que Pon veut represen ter. Eu eflfet, nous 
avons vu Pimportance sur la precision du nombre de bits de la mantisse et 
nous avons egalement constate qu’un nombre fini seulement de reels peuvent 
etre represents exactement. L ’intervalle entre les nombres representables 
vaxie en longueur selon Pexposant devant la mantisse. 



Definition 1.4 

La precision machine e est la plus grande erreur relative que Pon puisse 
commettre en representant un nombre reel sur ordinateur en utilisant la 
troncature. 
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Remarque 1.7 

La precision machine depend bien sur de Pappareil utilise et du nombre de 
bits de la mantisse, De plus, si on utilise l’arrondi, la precision machine est 
tout simplement e/2.n 



Theoreme 1.1 
La precision machine verifie; 

£ < b 1 - 71 ( 1 . 13 ) 

ou b est la base utilisee et n le nombre de bits de la mantisse. 

Demonst rat io n : 

Soit a;, un nombre quelconque. Sa representation exacte en base b est done 
de ia forme: 

x — 0 ^d\d 2 (i 3 * ■ ' d n d n _|_i </ n _|_2 x b 
ce qui entrafne que Perreur absolue commise par troncature est: 

Ax = 0,0000 * * ■ 0d n+ id n+ 2 ■ ■ ■ x b l 
— 0,d TC _|_id T1 + 2^+3 x b 
< Q,(b-l)(b-l){b-l)*-xb l - n 
en vertu de l’equation 1,12, L’erreur relative satisfait done: 



|Ax| 


0,(fc-l)(i-l)(4- 




X b ! ~ n 


\x\ 


0,rfid2d3 ■ * ■ d n d n +id n+ 2 ’ 


■ • x b 1 


<r 


Q,(i-l)(fc-l)(6- 


1 )... 


x b‘- n 




0,100 000- 


- x b l 




< 


1 x 6 1-n 







On note alors qne b 1-Tl est une borne superieure pour la precision machine, 
Dans ce qui suit, on ne fera plus la distinction entre la precision machine € 
et sa borne superieure 6 1- ”, bien que ces deux quantites soient legerement 
differentes. □ 
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II est facile de montrer que cette borne est presque atteinte pour tous les 
nombres x de developpement en base b de la forme: 

X = 0,100 000 • • - 0(6 - 1)(A - 1) ■ • • X b l (1.14) 

c’est-a-dire dont le 1 est suivi de (n — 1) zeros et ensuite d*une infinite de 
cliifFres vaiant (b — 1). I/erreur relative est alors: 

o.tt-iXt-U-.-xb 1 -" 

; 0,100000 — 0(6- 1)(6- 1) — x V 

qui est tres pres de 6 1_ri . 



Exemple 1.11 

Suivant la norine IEEE, la mantisse d’un reel contient 23 bits en simple 
precision (52 bits en double precision), mais avec une precision de 24 bits 
(53 en double precision) puisque, apres la normalisation, le premier 1 n’est 
pas garde en memoire. La precision machine vaut alors: 

2*~ 24 = 0,119 x 10“ 6 



en simple precision et 



en double precision. 



2 1-S3 = 0,222 x 10“ 15 



• • * • * 

Ce result at pent etre verifie directement sur ordinateur au moyen de Pal- 
gorithme qui suit (voir Chapraet Canale, ref, [4]). Cet algorithme permet de 
construire une suite de nombres de forme similaire a celle de P equation 1.14. 



Algorithme 1.1: Precision machine 

1 . 6 = 1 

2. Lorsque 1 + e > 1, effectuer e = c/2 

3. € = 2 x € et arret 



4. Precision machine = e □ 
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Dans P algorithm e precedent, le nombre (1 + c) prend successivement les 
valeurs suivantes: 



Forme decimale 


Forme binaire 


2 


0,1 x 2* 


1,5 


0,11 x 2 1 


1,25 


0,101 x 2 1 


1,125 


0,1001 x 2 1 


1,0625 


0,100 01 x 2 1 



Cette suite continue jusqu’a ce que le nombre de z6ros intercales dans la 
representation binaire soit trop grand et depasse la longueur de la mantisse. 
On aura alors 1 + e = 1 et Falgorithme s’arretera. II est a noter que la 
representation binaire de 1 + e est de forme similaire a celle de la relation 1,14. 
Sur un IBM RISC 6000, la concordance entre le resultat de cet algorithme 
et Tequation 1.13 est parfaite, 

Terminons cette section par deux exemples illustrant les efFets parfois 
etonnants de la representation binaire. 



Example 1,12 

Si on convertit la fraction decimale 0,1 en sa valenr binaire, on a: 



0,1 x 2 


= 0,2 


c.-a-d. 


di = 0 


0,2 x 2 


= 0,4 


c,-a-d. 


O 

II 


0,4 x 2 


= 0,8 


c.-a-d* 


O 

II 

■s 


0,8 x 2 


= 1,6 


c.-a-d. 


d 4 = 1 


0,6 x 2 


= 1,2 


c,-a-d. 


d s = 1 


0,2 x 2 


= 0,4 


c.-a-d. 


o 

II 

to 



oil encore 

(0,l)io = (0,000 110 Oil 00 

Ainsi, une fraction ayant un developpement decimal Uni peut avoir un deve- 
loppement binaire illimite. 
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Lorsqu’on utilise un nombre fini de bits dans la mantisse pour representer 
(0,1 )io, Pimportance de Perreur commise depend du nombre de bits utilises. 



Exemple 1.13 

Le probleme consiste a sommer 10000 fois le nombre (l,0)io, qui possede un 
developpement binaire fini, et le nombre (0,l)io, qui n’apas de representation 
exacte sur un nombre fini de bits. On obtient, sur un IBM RISC 6000, les 
resultats suivajits: 

10 000,00000 et 999,902 8931 

en simple precision et; 

10 000,000 000 0000000 et 1 000,000 014 901 161 19 

en double precision. Cela demontre Teffet des erreurs de representation sur 
ordinateur. Des operations en apparence identiques donnent, dans un cas, un 
resultat exact et, dans Pautre, un resultat errone dont la precision augmente 
avec le nombre de bits de la mantisse. 



1.5 Arithmetique flottante 

Les erreurs ont tendance a se propager et quelques fois a s’amplifier au fil 
des calculs. Dans cette section, nous suivons revolution des erreurs au fil des 
operations elementaires. Afin de simplifier Pexpose, nous utilisons le systeme 
decimal, mais les effets decrits valent egalement pour les autres bases. 

Tout nombre reel x s’ecrit sous la forme: 



x = * * * d n d n+ 1 ■ * ■ X IQ' 



Definition 1.5 

Soit x , un nombre reel. On note fl(ar) sa representation en notation flot- 
tante d n ckiffres definie par: 

fl(T) = 0flid 2 d 3 ■ -d n x 10* 
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Remarque 1.8 

La notation flottante d’un nombre depend du. nombre n de chiffres dans la 
mantisse, mais aussi du procede retenu pour eliminer les derniers chiffres. 
Ainsi, la troncature consist e a retrancher les chiffres a partir de la position 
n + 1. Avec Parrondi, on ajoute 5 a a (n + l) e chiffre de la mantisse avant 
d’effectaer la troncature. La troncature est dite biaisee , car on a toujours, 
pour des nombres posit ifs, fl(x) < x. Par contre, Parrondi est non biaise, car 
on a tour a tour x < fl(i) on i > fl(x). Nous utilisons Parrondi dans les 
exemples qui suivent, □ 



Remarque 1*9 

La norme IEEE recommande Patilisation de Parrondi dans la representation 
binaire des nombres reels. □ 



Exemple 1.14 

Si on choisit n = 4, alors on a: 

fl(l/3) = 0,3333x 10° 

fl(ir) = 0,3142 x 10 1 

11(12,4551) = 0,1246 x 10 2 



1.5.1 Operations elementaires 

Les operations elementaires sont Paddition, la soustraction, la multiplica- 
tion et la division. Soit x et y, deux nombres reels. On effect ue ces operations 
en arithmetique flottante de la fagon suivante: 

x + y -► fl(fl(x) + fl(y)) 

x-y -> fl(fl(x) - fl(y)) 

x + y -> fl(fl(ar) - fl(y)) 

x xy -> X 
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En u.n mot, on doit d’abord representer Les deax operandes en notation 
flottante, effect uer l’operation de La faqon habituelle et exprimer le resultat 
en notation flottante. 



Exemple 1.15 

Si on prend n = 4, alors on a: 



1/3x3 -> fl(fl(l/3) x fl(3)) 

= fl((0,3333 x 10°) x (0,3000 x 10 1 )) 
= fl( 0,099 990 00 x 10 1 ) 

= 0,9999 x 10° 



On remarque nne legere perte de precision par rapport a la valeur exacte de 
cette operation qui est 1. 



La multiplication et la division sont particulierement simples en arith- 
metique flottante a cause de la loi des exposants. 



Exemple 1.16 

Toujours avec n -- 4, effect. uer les operations suivantes: 

a) (0,4035 X 10 6 ) x (0,1978 X lO -1 ) 

= fl( 0,4035 x 10 6 x 0,1978 x 10" 1 ) 
= fl(0, 079 8123 x 10 5 ) 

= fl(0,798 123 x 10 4 ) 

= 0,7981 x 10 4 

b) (0,567 89 x 10 4 ) 4- (0,123 4321 x 10“ 3 ) 

= fl( 0,5679 x 10 4 4- 0,1234 X lO" 3 ) 
= fl(4,602 106969 x 10 7 ) 

= fl( 0,460 210 6969 X 10 s ) 

= 0,4602 x 10 8 
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Par contre, il faut etre plus prudent avec l’addition et la soustraction. 
On ajoute d’abord des zeros a la mantlsse du nombre ayant le plus petit 
exposant de telle sorte que les deux exposants soient egaux. On effectue 
ensuite 1’operation habituelle et on met le resultat en notation flottante. 



Exemple 1.17 

Toujours avec n = 4, effectuer les operations suivantes: 

a) (0,4035 x 10 6 ) + (0,1978 x 10 4 ) 

= 11(0,4035 x 10 s + 0,1978 x 10 4 ) 

= *(0,4035 x 10 6 + 0,001 978 x 10 6 ) 

= 11(0,405 478 x 10 6 ) 

= 0,4055 x 10 6 

b) (0,567 89 x IQ 4 ) - (0,123 4321 x IQ 6 ) 

= 11(0,5679 x 10 4 - 0,1234 x 10 6 ) 

= *(0,005 679 x 10 6 - 0,1234 x 10 6 ) 

= -11(0.117 72 x 10 6 ) 

= -0,1177 xlO 6 

On constate qu’il est primordial de decaler la mantisse avant d ’effect uer 
Paddition ou la soustraction. 



Remarque 1*10 

II faut bien remarquer que des operations mathematiquement equivalentes 
ne le sont pas forcement en arithmetique ilottante. L’ovdre des operations 
est ires important En void un exemple, □ 



Exemple 1*18 

La propriety de distributivite de la multiplication sur l’addition n’est pas tou- 
jours respectee en arithmetique flottante. En efFet, en arithmetique exacte: 



122 x (333 + 695) = (122 x 333) 4- (122 x 695) = 125416 




Analyse d ’erreurs 



27 



En arithmetique flottante avec n = 3, on obtient d’une part: 



122 x (333+ 695) 



fl[{0,122 X 10 3 ) x fl (0,333 X 10 3 + 0,695 x 10 3 )] 
fl[(0,122 x 10 3 ) X fi(l,028 x 10 3 )] 
fl[(0,122 x 10 3 ) X (0,103 x 10 4 )] 

11(0,012566 X 10 7 ) 

0,126 x 10 6 



et d’autre part: 

(122 x 333) + (122 x 695) 



fl[fl((0,122 X 10 3 ) X (0,333 x 10 3 )) 

+ fl((0,122 x 10 3 ) X (0,695 x 10 3 ))] 
fi[fi(0,040 626 X 10 6 ) + fl (0,084 79 x 10 6 )] 
fl[(0,406 x 10 s ) + (0,848 x 10 s )] 
fl(l,254 x 10 s ) 

0,125 x 10 6 



On constate done nne legere difference entre les denx resultats, ce qui indique 
que les deux faqons d’effectuer les operations ne sont pas equivalentes en 
arithmetique flottante. 



1.5.2 Operations risquees 

Un certain nombre de calculs sont parti culierement sensibles aux erreurs 
d’arrondi. Nous presentons queiques exemples d’operations a eviter. 



Exemple 1.19 

Additionner deux nombres dont les ordres de grandeur sont tres differents: 
(0,4000 X 10 4 ) + (0,1000 x 10~ 2 ) 

= fl( 0,4000 x 10 4 + 0,1000 X 10~ 2 ) 

= 11(0,4000 x 10 4 + 0,000 0001 X 10 4 ) 

= 11(0,400 0001 X 10 4 ) 

= 0,4000 X 10 4 

La loi des exposants et l’arrondi font en sorte que le petit nombre disparait 
completement devant le plus grand. Ce comportement est encore plus en 
evidence dans l’exemple suivant. 
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Exemple 1*20 

Calculer une somme de termes positifs: 



s, = i + E 

2 = 1 



1 

i 2 + i 



On peut evaluer analytiquement cette eerie en utilisant les fractions par- 
tielles. En effet: 



Sn - 1 + 

i=l 



1 

i 2 + i 




1 

T + T 



) 



, i v ,i i. .i 

= 1 + ( 1 - 2 > + ( 2 - 3 ) + ”' + ( b 



n + 






= 2- 



n + 1 



On pent calcnler cette somme tout d’abord directement: 

11 1 
’ 2 6 n 2 H- n 

et ensnite a rebonrs: 

n 1 11, 

S<2,n = — 2~ 1 1 " 7 + „ + 1 

n £ + n 6 2 

Les resultats calcnles sur IBM RISC 6000 sont resumes dans le tableau ci* 
dessous pour differentes valeurs de ft. 



n 


■Si, n 


| S'2,n 


Valeur exacte de S n 


99 


1,989999 890 


1,990000 010 


1,99 


999 


1,999001026 


1,999000 072 


1,999 


9999 


1,999 791980 


1,999899983 


1,9999 



On remarque que S 2( n est plus precis que Cela est du au fait que lors- 
qu’on somme S\^ on accumule dans Si in les sommes intermediaires. Conse- 
quemment, Si ?n devient de pins en pins grand par rapport a et on Unit 
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pax additionner un tres grand et nn tres petit nombre (ce type d’operation 
est a eviter). Inversement, lorsqu’on somme S 2 fTi1 les sommes intermediates 
augmentent, mais les termes qui s’ajoutent an til de la sommation croissent 
egalement et le phenomene precedent ne se produit pas. 



Exemple 1*21 

Soustraire deux nombres presqne identiqnes: 

(0,5678 x 10 6 ) - (0,5677 x 10 6 ) 

= 11(0,5678 x 10 6 - 0,5677 x 10 6 ) 

= 11(0,0001 x 10 6 ) 

= 0,1000 x 10 3 

La soustraction de ces 2 nombres de valeur tres proche fait apparaitre trois 
0 non significatifs dans la mantisse dn result at. On appelle ce phenomene 
V elimination par soustraction des chiffres significatifs. L’exemple suivant en 
illustre les consequences possibles. 



Exemple 1,22 (Chapra et Canale, ref. [4]) 
Calculer les racines de: 

ax 2 + bx + c 



qni sont bien sur: 






—b -|- \/b 2 — 4 ac 
2a 



et 






—b — yfb 2 — 4 ac 



2a 



On considere le cas oil a — 1, b = 3000,001 et c = 3. Les racines exactes sont 
ri = —0,001 et T 2 = -3000. Un calcnl en simple precision (norme IEEE) 
donne ri = —0,000 988 28133 et T 2 = —3000,0000, dont l’errenr relative 
est respectivement de 1,17% et de 0,0%, Le calcul de V 2 ne pose ancune 
difficult^ particuliere, L’erreur relative liee a ri provient de 1 ’addition de 
(-6), qui vaut -3000,000 977, et de y/b 2 — 4 ac, qui vaut 2999,999 023, Cette 
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operation revient a soustraire des nombres tres voisins. Pour eviter cela, on 
pent multiplier ri par son conjugne et calculer: 



r\ 



( 



—b + \/b 2 — 4ac\ / 

2 ^ ) V 



— b — y/b 2 — 

-6 — y/b 2 - 4 acj 



-2c 

b + yfb 2 — 4 ac 



On obtient de cette maniere: 



ri = -0,001000 000047 



et une erreur relative extremement fajble. 



Exemple 1.23 

Evaluer une serie de nombres de signes aiternes (Chapra et Canale, ref [4]), 

Nous verrons un peu plus loin que le developpement de Taylor de la 
fonction e~ x autour de 0 est: 



— X 



X 2 X 3 

l ~ X+ 2i~3f + 



(-l) n X n (-l) n+1 a: B+1 
+ 5 + (n+1)! + 



nl 



— $n + 



(-1 )"+ 1 g "+ 1 

{n+ 1)! 



(1.15) 



+ 



On remarque que les termes de la serie changent constamment de signe. 
Dans 1 ’expression 1.15, S n design e la somme des (n + 1) premiers termes 
de la serie, Le tableau d-dessous presente quelques resultats intermedia! res 
obtenus lors de 1’evaluation de e~ 10 > qui consiste a poser tout simplement 
x — 10 dans l’equation 1.15. 
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n 


x n jn\ 


Somme partielle S n 


0 


+1,000 000 00 


+ 1,000 000 000 


1 


-10,000 0000 


—9,000 000000 


2 


+50,000 0000 


+41,000 000 00 


3 


— 166,666 718 


-125,666 6718 


4 


+416,666687 


+291,000 0000 


5 


-833,333 374 


—542,333 3740 


10 


+2755,732 17 


+1342,587 402 


20 


+41,103 1875 


+ 13,396 75140 


30 


+0,376 998 9125 X 10" 2 


+0,852 284 9530 x 10“ 3 


31 


-0,121 612 5558 x 10“ 2 


-0,363 840 6051 x 10" 3 


32 


+0,380 039 2442 x 10 -3 


+0,161 986 3906 x 10“ 4 


33 


-0,115 163 4060 x 10 -3 


-0,989 647 6690 x 10“ 4 


34 


+0,338 715 9086 x 10“ 4 


-0,650 931 7609 x 10" 4 


35 


-0,967 7597518 X 10~ s 


-0,747 707 7452 x 10“ 4 


40 


+0,122 561 8007 x 10" 7 


-0,726 567 8660 x 10" 4 


41 


-0,298 931 2131 x 10“ 8 


-0,726 576 6908 x 10“ 4 


42 


+ 0,711 7409990 X 10“ 9 


-0,726 569 5604 x 10“ 4 


43 


-0,165 521 1662 x 10“ 9 


-0,726 571 2338 x 10 -4 


44 


+0,376184 4655 X 10“ 10 


-0,726 570 8700 x 10“ 4 


45 


-0,835 965 4982 X 10 -11 


-0,726 570 9428 x 10' 4 



Voila un exemple parfait de calcul instable. On remarque immediate- 
ment que le result at final est faux, car on obtient une valeur negative pour 
Texponentielle dont la valeur exacte est 0,453 9993 x 10 -4 . On voit aussi 
qu’il est inutile de continuer pour des valeur s de n plus grandes que 45, car 
la valeur de x n jn\ est trop petite pour modifier substantiellement le resub 
tat. Cela revient a additionner un tres grand et un tres petit nombre. On 
constate enfin que le phenomene d’elimination par soustraction des chiffres 
significatifs se produit de fa^on sysfcematique en raison de Palternance des 
signes. 

On peut contourner ces difficult es en evaluant la serie de maniere diffe- 
rente. Une possibility consiste a utiliser Taigorithme de Horner pour reva- 
luation des polynomes. 
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1.5.3 Evaluation des polynomes 

II est tres frequent d ’avoir a evaluer des polynomes de degre eleve en 
analyse numerique. II est done important de pouvoir les evaluer rapidement 
et de la fagon la plus stable possible du point de vue de Tarithmetique 
flottante. C’est ce que permet Yalgorithme de Horner appele aussi algorithme 
de multiplication imbriquee. Pour evaluer un polynome de la forme: 

p(x) — a 0 -I- a\z + a 2 x 2 + a 3 x 3 -\ 1- a n x n 

en un point z quelconque, il suffit de regrouper judicieusement les termes de 
la fagon suivante: 

p(z) = a 0 + zOi + x(a 2 + z(a 3 + * - * + x(a n - 1 + a n x) ■ • •))) (1-16) 

Voyons revaluation d’un polynome a Pexemple suivant. 



Exemple 1.24 

Soit le polynome: 

~ 2 + 4x + 5z 2 + 3x 3 

qui necessite 6 multiplications et 3 additions. En suivant le mode de regrou- 
pement de l’equation 1.16, on obtient: 

p(x) = 2 + x(4 4- z(5 + 3z)) 

qui necessite seulement 3 multiplications et 3 additions (et aucune elevation 
de puissance). On reduit done substantiellement le nombre d ’operations ne- 
cessaires et, de plus, cette nouvelle expression est moins sensible aux effets 
de Faritbmetique flottante. 



La methode de Horner est facile a programmer grace a l’aJgorithme sui- 
vant. 



Algorithme 1.2: Methode de Horner 

* 

1. Etant donne les coefficients a* d’un polynome de degre n 

* 

2. Etant donne une abscisse x 
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/ 

3. Etant donne la variable p n qui contiendra la valeur du polynome en x 

4. Pn, = «n 

5. Pour i = n, n — 1 T n — 2, ■ - ■ , 2, 1: 

Pn — Qi - 1 + Pn x 



6- Ecrire x, p(x) = p n □ 



Exemple 1*25 

La methode de Horner peut servir a reprendre le calcul e” 10 par la serie 
alternee 1.15. Les coefficients du poly Home sont: 



Pour le polynome de degre n = 45, on obtient la valeur approximative 
0,453 999 X 10 4 , qui est tres pres de la valeur exacte et qui ne change plus 
pour les valeurs suivantes de n. 



1*6 Erreurs de troncature 

Les erreurs de troncature constituent la principale categorie d*erreurs. 
Tout au long de ce manuel, nous abordons des methodes de resolution qui 
comportent des erreurs de troncature plus ou moins importantes* Uorxlre 
d’une methode depend du nombre de termes utilises dans les developpements 
de Taylor appropries. II est done essentiel de re voir en detail le developpe- 
ment de Taylor, car il constitue Poutil fondamental de l’analyse numerique. 

Remarque 1.11 

II est important de ne pas confondre les erreurs de troncature traitees dans 
cette section et la troncature utilisee pour la representation des nombres sur 
ordinateur. □ 
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Figure 1,5: Approximation de f(x) au voisinage de xq 

1,6-1 Developpement de Taylor en une variable 

II existe plusieurs fa^ons d’introduire le developpement de Taylor. Une 
fa<;on tres simple consiste a le presenter formellement comme un probleme 
d’ approximation au voisinage d’un point xq, On se demands alors quel est 
le polyndme de degre 0 (note Po(^)) qui donne la meilleure approximation 
d T une fonction f(x) donnee dans le voisinage du point 
Selon la figure 1,5, ce polynome est: 

JMz) = fix o) 

On peut pousser plus loin l’analyse et chercher le meilleur polynome de 
degre 1 de la forme: 

Fi(ar) = oq + ai(x - x 0 ) (1-17) 

On pourrait tout aussi bien chercher un polynome de forme plus classique: 

Fi(x) = 6 0 + bi x 

Ces deux expressions sont equivalentes et aboutissent au meme resultaT La 
forme 1,17 est plus pratique et plus naturelle puisqu’elie s’articule autour du 
point xq. 

On doit introduce deux conditions pour determiner les deux constantes. 
Intuit ivement, la meilleure droite (polynome de degre 1) est celle qui passe 
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par (so* f( x o)) dont la pente est celle de la fonction f(x) en io f ce qui 
entraine que: 



^l(xo) 


= /(*o) 


( 1 . 18 ) 




= f'(x a) 


(1.19) 


ou encore 






flo = 


f( x o) 




ai = 


f\ x o) 




11 en result e F expression suivante: 






fUz) = f{x o) + /'(* o) ( x - x 0 ) 




On pent bien sur poursuivre ce raisonnement a condition 


que la fonction 


j{x) soit suffisamment derivable. Dans le cas d’un polynome 


de degre 2, on 


imposerait: 






fz(io) 


- /Oo) 


(1.20) 


n(*o) 


= n* o) 


(1.21) 


P?(*o) 


= f"{x a) 


(1.22) 



pour obtenir facilement: 

iM*) = /(* o) + /'(* o) (X - X 0 ) + r<>°) K~ ^ 

En poursuivant ce raisonnement jusqu’a Ford re rc, c’est-a-dire en imposant 
l’egalite des derivees jusqu’a Ford re n , on obtient le polynome de Taylor de 
degre n de la fonction f(x) autour de x 0 . 

Definition 1.6 

Le polynome de Taylor de degre n de ia fonction f(x) autour de xq est 
defini par: 

Pn(x) = f(x o) + f'(xo) (X - X 0 ) + ~ ^ ^ 

(1.23) 

, /"'(* o)(z-*o ) 3 , , /(»>(* o)(*-*o)" 

+ 3! + “' + S 

ou /^(xq) designe la derivee d’ordre n de f(x) en xq. 
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Ce polynome donne une approximation de la fonction f(x) au voisinage 
de x Q . II n J y a cependant pas egalite en ce sens que si on utilise l’equation 1.23 
pour estimer f(x) on commettra une erreur. 

Remarque 1.12 

On choisit generalement le point x Q ou on developpe le polynome de Taylor 
de fagon a ce que Ton puisse facilement e valuer la fonction f(x) ainsi que 
ses derivees. □ 



Le resultat suivant quantifie Terreur commise lorsqu’on utilise le poly 
nome de Taylor (Thomas et Finney, ref. [22]). 



Theoreme 1.2 

Soit /(z), une fonction dont les derivees jusqu’a l’ordre (n + 1) existent au 
voisinage du point x Q . On a T egalite suivante: 



f(x) = P n (x) + R n (x) 



(1.24) 



ou P n (x ) est le polynome de Taylor 1.23 et R n (z) est Terreur commise, qui 
est donnee par: 



Rn{x) - 



/(" +i >(e( a: ))(x-x 0 )(’‘+ i ) 



(n+l)! 

pour un certain compris entre x 0 et £. □ 



(1.25) 



Remarque 1.13 

1. L’equation 1.24 est une egalite et ne devient une approximation qne 
lorsque le terme d’erreur est neglige. 

2. Le terme d’errenr de P equation 1.25 devient de plus en plus grand 
lorsque x s’eloigne de xo en vertu du terme (a: — xo)^ n+1 ^ (voir la 
figure 1.5). 

3. Inversement, pour une valeur de x pres de io, le terme d’erreur de 
Pequation 1,25 est de plus en plus petit lorsque n augmente. 

4. On sait que le point f(x) existe et qn’il varie avec a, mais on ne connait 
pas sa valeur exacte. II n’est done pas possible d’evaluer le terme 
d’erreur exactement. On peut tout au plus lui trouver une borne su- 
perieure dans la plupart des cas. 
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5. On commet une erreur de troncature chaque fois que Ton utilise le 
developpement de Taylor et que Pon neglige le terme d’erreur de Inequa- 
tion 1,25, □ 



Un cas particular important du theoreme precedent est le premier tkeo- 
reme de la moyenne , qui equivaut a poser n = 0 dans le developpement de 
Taylor* 

Corollaire 1.1 

Soit f(x) y une fonction derivable dans Pintervalle [ 2 : 0 , 2 ;], Alors il existe £ 
dans [iQiz] tel que: 



f{x) = f(x o) + /'(£)(* - x o) 
qui s’ecrit egalement sous la forme: 

/(*) - /(*o) = /'(ex* - *o) □ 



(1.26) 



On cree une forme plus pratique du developpement de Taylor en remplagant 
i par xq + h ou encore l’expression x — x Q par h. On obtient ainsi: 



ou 



f(x Q + h) = P n (h) + Jt n (h) 

/"(* o) ft 2 



P n (h) = f(x 0 ) + f'(xo)h + 



et 



+ 



R*{h) = 



+ •■■ + 



2 ! 

f {n H*o) h n 



3! n! 



(n + 1)! 



(1.27) 



(1.28) 



(1.29) 



pour £(/*) compris entre xq et + h , 



Exemple 1.26 

On considere la fonction f(x) = e x au voisinage de x 0 = 0, Puisque tontes 
les derivees de e x sont egales a e x et valent 1 en xq = 0, le developpement 
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de Taylor de degre n devient: 



- Io+ ' 1 = e h „ p n ( ft ) = 1 + A + i. + |. + ... + ^_ 



et Pexpression du terme d’errenr de l’equation 1.29 est: 



R n (h) 



e S(h) h n+l 

(" + !)! 



ou f(/t) E [0,h], On peut meme determiner une borne superieure pour le 
terme d’errenr. La fonction exponentielle etant croissante, on a: 



JW < e h 



dans Pintervalle [0, k] et on conciut que: 

g /i Ln+l 

S (n + l)j f 1 ' 30 ’ 

On peut utiliser ce developpement pour estimer la valeur de e 0 ’ 1 en pre- 
nant h — 0,1. 



n 


Pn(0,l) 


Erreur absolue 


Nombre de chiffres 
significatifs 


Borne pour le 
terme d ’erreur 


0 


1,0000000 


0,105 x 10° 


1 


0,111 x 10° 


1 


1,1000000 


0,517 x 10~ 2 


2 


0,552 x 10~ 2 


2 


1,1050000 


0,171 x 10- 3 


4 


0,184 x 10~ 3 


3 


1,1051667 


0,420 x 10 -5 


6 


0,460 x 10“ 5 



On obtient Perrenr absolne simplement en comparant le resultat avec la 
valeur exacte 1,105 170 918, tandis qne la borne superieure de 1’erreur pro- 
vient de Pequation 1.30 avec k = 0,1. Enfin, si on prend /* = 0,05etra = 3 
pour estimer e°> 05 , on obtient: 

P 3 (0,05) = 1,051 270 833 

et une erreur absolue d’environ 0,263 x 1G -6 . On remarque de plus que le 
rapport des erreurs absolues bees a P 3 (h) est: 

IPsOm-e 0 ’ 1 ! 0,4245 xl0~ 5 

|P 3 (0,05)- e°> 05 | 0,263 x 10" 6 
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La valeur de ce rapport n’est pas fortuite. La definition suivante permet de 
comprendre d ? ou provient cette valeur (Bourdeau et Gelinas, ref. [1]). 



Definition 1*7 






Une fonction /(h) est un grand ordre de h 71 au yoisinage de 0 (note }(x) = 
0(ft n )) s’il existe une constante positive C telle que: 




m 


< C 




h n 




au voisinage de 0* 







Bien qu’impredse, cette definition exprime assez bien les caracteristiques 
d’une fonction de type 0(h n ). Lorsque h est assez petit, la fonction 0(h n ) 
decroit comme Ch n . Plus n est grand, plus la decroissance est rapide* Ainsi, 
une fonction 0(h 3 ) decroit plus vite qu’une fonction 0(/i 2 ), qui eile-meme 
decroit plus vite qu’une fonction 0(/i)« Pour avoir une idee du comportement 
d’une fonction de type 0(h n ), il suffit de remarquer que, lorsque h est divise 
par 2, la fonction 0(h n ) diminue selon un facteur approximatif de 2"* En 
effet, si on remplace h par h/2 dans Ch n , on obtient: 




Ch n 

2 n 



Remarque 1*14 

Le terme d’erreur du polynome de Taylor de degre n est general ement de type 
Of/i™" 1 " 1 ). Cela explique le rapport de 16,14 obtenu dans 1’exemple precedent, 
En effet, on y trouve un polynome de Taylor de degre 3 dont le terme d’erreur 
est de type 0(h 4 ). En passant de h = 0,1 a h = 0,05, on divise h par un 
facteur de 2, d’ou une diminution selon un facteur de 2 4 = 16 de Terrenr. 
Bien sur, le facteur de 16 est approximatif et n’est atteint qu’a des valeurs 
de h tres petites. Dans le cas general, on note: 



/(* 0 + h) = P n (A) + 0(h n+1 ) □ 
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Definition 1*8 

Une approximation dont le terme d’erreur est un grand ordre de h n 
(0(h n )) est dite d’ordre n. 



Remarque 1*15 

Suivant cette definition, le polynome de Taylor de degre n est generalement 
(mens pas toujours) nne approximation d’ordre (n-h 1) de /(x). Par exemple, 
le developpement de Taylor de degre n de e x autour de x = 0 est d’ordre 
(n + 1). □ 



Remarque 1.10 

Dans certains manuels, il y a confusion entre le degre et Tordre du polynome 
de Taylor. II faut s’assurer de bien distingner ces deux notions, □ 



Exemple 1.27 

Caiculer le developpement de Taylor d’ordre 5 de la fonction sinx autour de 
xo = 0. Les derivees de la fonction sont respectivement: 



f( x ) 


sin x, 


m = 


0 


/'(*) 


cos X, 


m = 


1 


/"(*) = 


— sin x , 


TO = 


0 


f'"(x) = 


— COS X, 


/'"( 0) = 


-1 


/""(*) = 


sin x, 


/""( o) = 


0 


= 


cosx 







Le developpement de Taylor est done: 



sin(ro + h) = sin(/i) = h 



— . cos (C (^)) a5 

3! + 5! 
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II suffit de calculer le polynome de Taylor de degre 3 (P 3 (A)) pour obtenir 
une approximation d’ordre 5 de la fonction sin h. Puisque la fonction cos a: 
est bornee en valeur absolue par 1 7 on note immediatement que: 

\MV\ < ^ 

Si on prend maintenant k = 0,1 , on peut obtenir 1 Approximation: 
sin(0,l) ~ 0,1 - ^1! = 0,099 833 333 

O' 

soit une erreur absolue de 0,8332 x 10 -7 . □ est a noter que la borne superieure 
de Perreur vaut 0,8333 x 10“ 7 , ce qui est tres pres de la valeur exacte. Si on 
prend h — 0,2, on trouve: 

sin(0,2) ~ 0,2 - = o,198 666 6667 

et une erreur absolue de 0,2664 x 10~ 6 . On remarque de plus que le rapport 
entre les deux erreurs absolues est: 

0,2664 x 10" 5 _ A 

? __ — Q 1 Q7 

0,8332 x 10- 7 ’ 

ce qui conlirme que cette approximation est bien d’ordre 5* En prenajvt une 
valeur de h deux fois plus grande, on trouve une erreur a peu pres 2 s = 32 
fois plus grande. Cet exemple montre que ie polynome de Taylor de degre 3 
de la fonction j(x) = sini est d’ordre 5. 



1*6.2 Developpement de Taylor en piusieurs variables 

On peut reprendre, dans le cas de piusieurs variables, le raisonnement 
qui a mene au developpement de Taylor d’une variable. Nous nous limitons, 
pour les fins de Pexpose, a trois variables, ie cas general etant similaire. 
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Theoreme 1.3 

Soit f(x i t x 2 ,X 3 ), une fonction de trois variables, que Ton suppose suffisam- 
ment differentiable. On a alors; 

f(x i + hi , x 2 + h 2 1 x 3 + h 3 ) = f(x i , x 2 , x 3 ) 



+ 



/'0/(ii,i 2 ,x 3 ) r df(xi,x 2 ,x 3 ) 

{ Bil k ' + sr, hi + 



dfix^x^ X 3 ) 

dx 3 




, 1 (d 2 f{x i,x 2 ,x 3 )^ 2 , d 2 f(xi,x 2 ,X 3 )^ 2 i d 2 f(x 1 ,x 2l z 3 )^ 2 
+ 2! ^ dz* kl + " k 2 + dxl k 3 



+ 



f g 2 /(jl,Z 2 ,X3) 
^ 8x^X2 



h\ h>2 + 



d 2 /(gi,g 2 ,^ 3 ) 



/ll + 



ay(ii,i 2l 3:3) 

dx 2 0x 3 




Les termes suivants (designes par les pointilles) font intervenir les differentes 
derivees partielles d ’ordre 3, 4, 5 ■ * - de la fonction f(x 1 , x 2 i £ 3 )* On voit bien 
la similitude avecle cas d’une variable. En pratique, on utilise principalement 
le developpement de degre 1, qui ne fait intervenir que les derivees partielles 
d’ordre 1. □ 



Exemple 1.28 

Soit la fonction de deux variables: 



f(x i, x 2 ) = xj + x x sin x 2 

que Ton developpe autour de (xi,x 2 ) = (1 , 0). On a alors /( 1, 0) = 1, De 
plus, les derivees partielles du premier ordre de / sont: 



df(x u x 2 ) 

dxi 



= 2xi + sin x 2 



9 fix i>x 2 ) 

8xi> 



— Xi cos x 2 



et cedes du deuxieme ordre sont: 
d 2 /Q i, x 2 ) _ 2 g 2 /(x i ,x 2 ) 



dx ? 



dxi 



~ —xi sin x 2 



a 2 /(x 1? x 2 ) 

dxidx 2 



= cosx 2 
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Au point (1 , 0), ces derivees partielles valent: 

0 /( 1 , 0 ) = 2 0 /( 1 , 0 ) __ 1 

0 2 /(l , 0) _ 2 0V(1 , 0) _ Q 0 a /(l,O) , 

dx\ dx\ d Xl dx 2 

Le developpement de Taylor de degre 2 de cette fonction de deux variables 
autour du point (1 , 0) est done: 

/(I -f ^li 0 + h 2 ) — 1 + 2/ii + lh 2 + — (2ft? + 0ft?) + (lftift2) 

e’est-a-dire 

/(I -|- fti, ^2) — 1 H" 2 /i 1 + ^2 + ft? H~ ^1^2 

En choisissant par exemple fti = ft 2 = 0,1, on obtient T approximation sni- 
vante: 

/(1,1, 0,1) -1,32 

qui est proche de la valenr exacte 1,319 816 758 avec une erreur absolue 
d’environ 0,000 183. Si on prend maintenant h\ = h 2 — 0,05, on obtient 
une approximation de /(1,05 , 0,05) qui vaut 1,155. L’erreur absolue dans ce 
dernier cas est d’environ 0,000 021825, qui est environ 8,4 fois plus petite 
qu’avec hi = ft 2 = 0,1. Ce facteur de 8 s’explique par le choix d*un develop- 
pement de degre 2 (et d’ordre 3) et par la division des valeurs de hi et ft 2 
par 2, 



1.6.3 Propagation d*erreurs dans le cas general 

Nous approfondissons dans cette section plusieurs notions vues plus haut, 
Que peut-on dire, par exemple, de la precision des resultats obtenus lorsqu^on 
additionne ou qu’on multiple des valeurs connues avec une precision limitee? 
Plus generalement, si on a: 



x = x* ± Ax 

y = y* ± Ay 



quelle sera la precision de la fonction d’une variable /(x*) ou de la fonction 
de deux variables g(x* y y*)? Ici encore, le developpement de Taylor apporte 
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une solution. Considerons d’abord le cas d’une variable, Une quantite x 
inconnue est appro chee par une valeur approximative x* avec une erreur 
absolue Ax. On estime la valeur inconnue f(x) par V approximation /(£*), 
l/erreur absolue liee a ce resultat est: 

A/ = |/(x) - /(*•)! 

On a de plus: 

/(*) = /(x* ± Ax) = /(x*) ± /'(*•) Ax + 0((Ax) 2 ) 

En negligeant les termes d’ordre plus grand ou egal a 2, on obtient: 

A / - |/'(x*)l Az 

que Ton peut egalement ecrire: 

/(x) = /(x*)±|/'(x*)|Ax (1.31) 



Exemple 1.29 

On a mesure la longueur d’un cote d’une boite cubique et obtenu /* = 10,2 
cm avec une precision de Tordre du millimetre (A/ = 0,1 cm). On cherche le 
volume v de cette boite. Dans ce cas, /(/) = / 3 = v et 1 ’erreur liee au volume 
est: 

An = |/'(/*)| Al = 3 ( !0,2) 2 x 0,1 = 31,212 < 0,5 x 10 2 

La valeur approximative du volume est (1G,2) 3 = 1061,2 cm 3 , dont seuls les 
deux premiers chiffres sont signibcatifs. 



On traite les fonctions de plusieurs variables en faisant appel au deve- 
loppement de Taylor en plusieurs variables. Nous donnons le resultat en 
dimension 3 seulement, car le cas general ne pose aucune difficulty supple- 
mental re. 
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Theoreme 1.4 

Soit /(x, y, z) 7 une fonction de trois variables x, y et z dont on estime la valeur 
par x*, y* et z* avec une precision de Ax, de Ay et de Az respectivemeni, 
L’erreur absolue A / est donnee par: 



A / 



9f(x',y*, z*) 



+ 



dx 

df{x\y\z*) 

dz 



Ax + 



df{x*,y*,z*) 



dy 



Ay 



Az 



(1.32) 



Exemple 1.30 

Un signal elect rique est donne par: 

V — A sin(£*jf - <fi) 

ou V est la tension, A est Pamplitude du signal (A* = 100 V), v est la 
frequence (w* = 3 rad/s), <f> est le dephasage (0* = 0,55 rad) et t est le 
temps (t* = 0,001 s). En supposant que A et w sont connus exactement 
(A = A*, ur = w*) et que <£* et t* poseedent respectivement 2 et 1 chiffres 
significatifs, il s’agit d’e valuer Perreur absolue liee a V ainsi que le nombre 
de chiffres significatifs, 

Puisque A et u sont connns exactement, on salt immediatement que A A 
et Au; sont nuls et quails n’ont aucune contribution a l’erreur liee a V. Par 
ailleurs: 



At = 0,5 x 10“ 3 
A <p = 0,5 x 10~ 2 



et Terreur totale est: 



AV 



dV(r,4>*) 


At 4 - 


dv{t\4>') 


dt 


jLAi j 


d<fi 



A 4> 



c’est-a-dire 



AV = |AV'cos(w , T - ^*)|x(0,5xl0- 3 )+|-A’cos(w*r - ^*)!x(0,5xl0 _2 ) 
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ce qui donne: 

AV = 256,226 662 35 x (0,5 x 10~ 3 ) + ] - 85,4088745|x (0,5 x 10“ 2 ) 
= = 0,555 157 684 

La tension approximative V* est bien sur: 



V * = A * - <£*) = -52,012 730 71 

et puisque AV < 0,5 X 10 1 , ce nombre n’a qu’un seul chifFre significatif. 



Quelques cas particulars meritent de Pattention* De l’equation 1.32, on 
peut deduire la fa^on dont se propagent les erreurs dans les operations ele- 
mentaires. En effet, en prenant par exemple /(x, y) = x/y, on trouve: 



A/ = 



1 

V 



Ax + 




\y\Ax + \x\Ay 

y 2 



on encore 






On obtient ainsi le tableau suivant a partir de l’equation 1.32. 



A(x + y) = 


Ax + Ay 


> 

TT 

i 

ii 


Ax + Ay 


A(x x y) = 


|y|Ax + |x|Ay 


A(*-S-y) - 


|y|Ax + |x|Ay 




V 



On remarque que les erreurs absolues pour la soustraction s' additionnenL 
Le tableau montre egalement la similitude entre la propagation d ’erreurs et la 
differentiation d’une somme, d’une difference, d’un produit et d’un quotient 
de deux fonctions. 
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1.7 Exercices 

1. Tons les chiffres des nombres suivants sont significatifs. Donner une 
borne superieure de l’erreur absolue et estimer Perreur relative. 

a) 0,1234 b) 8,760 c) 3441 56 

d) 0412 35 x 10- 3 e) 8,000 f ) 0,223 56 x 10 8 

2. Exp rimer les nombres decimaux suivants en representation binaire clas- 
sique. 

a) 32 b) 125 c) 1231 d) 876 e) 999 f) 12345 

3. Exprimer les entiers signes 125, -125, 0, 175 et —100 dans nne forme 
binaire sur 8 bits en utilisant: 

a) la representation signe et grandeur. 

b) le complement a 2. 

c) la representation par exces ( d = 2 7 ). 

4. Tradnire les nombres binaires 0000 0011, 1000 0001 et 1111 1111 dans 
la forme decimate selon que la representation utilisee est: 

a) la representation binaire classique. 

b) la representation signe et grandeur, 

c) le complement a 2, 

d) la representation par exces (d = 2 7 ), 

5. Ponr representer les nombres reels, considerer un mot de 16 bits dont 
1 exprime le signe du nombre, 5, Texposant et 10, la mantisse. 

a) Representer le plus petit et le pins grand nombre positifs en utilisant 
le complement a 2 pour Texposant. 

b) Determiner la precision machine. 

6. Convertir en forme binaire les fractions decimates suivantes. 

a) 0,5 b) 0,2 c) 0,9 d) 1/3 e) 0,25 f ) 3/8 
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7, Un ordinateur fictif represente les nombres reels sur 32 bits dans l’ordre 
suivant: 

1 bit pour le signe du nombre (0 — positif, 1 = negatif); 

7 bits ponr Pexposant en representation signe et grandeur; 

24 bits pour la mantisse (normalisee). 

a) Que represented (en base 10) les 32 bits: 

1000 1011 1010 1000 0010 0000 0000 0000 

b) Donner nne borne superieure de Perreur relative bee a cette repre- 
sentation (on suppose que Pordinateur utilise la troncature). 

c) Donner Pexpresslon binaire sur 32 bits du plus petit nombre reel 
posit if representable et donner sa valeur en base 10. 

8* Convertir les nombres suivant s en simple precision IEEE. 

a) — 52,234 375 b) 7112,0 c) 16,2 

Verifier les reponses en les ret rans formant en nombree decimaux. Eva- 
luer Perreur de representation commise en c). 

9, Donner la representation en notation flottante en base 10 des nombres 
suivants (arrondir en conservant 4 chiffres dans la mantisse), 

a) e b) 1/6 c) 2/3 

d) 12,487 x 10 5 e) 213 456 f ) 2000,1 

10, Montrer qne la loi d’associativite de Paddition n’est pas toujours res- 
pectee en arithmetique flottante. Utiliser P arithmetique flottante a 
3 chiffres et les nombres suivants: x — 0,854 x 10 3 , y — 0,251 x 10 3 et 
^ = 0,852 x 10 3 , 

11. Effect uer les operations suivant es en arithmetique flottante a 3 chiffres. 

a) jt(1/jt) 

b) 2136(9993 + 0,004567) 

c) (1,235) 4 

d) 10 200 + 341 

e) (10 200 + 341) -9800 

f) (125 x 25) + (10x 2,5) 
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12. Combien de nombres differents peut-on representer en arithmetique 
flottante a 3 chiffres (base 10 ) si Fexposant l est compris entre —9 
et 9? 

13. Est-ce que (z y) est equivalent a (z X (1 -j- y)) en arithmetique 
flottante? 

14. On doit effect uer F operation 1 — cos x pour des valeurs de x voisines 
de 0. Expliquer ce qui risque de se produire du point de vue de Farith- 
metique flottante et proposer une solution de rechange. 

15. Donner une fa^on d’evaluer les expressions suivantes qui permette 
d’eviter le plus possible les erreurs dues a Farithmetique flottante. 

a) cos 2 # — sin 2 0 pour des valeurs de 0 autour de tt/4 

b) p(2), ou p(x) = 1 — 2z + 3z 2 — 4z 3 
100 

1=1 % 

16. La serie divergente: 




devient convergente en arithmetique flottante, Expliquer brievement 
pourquoi. 

17. Demontrer que l’erreur relative liee a la multiplication et a la division 
de deux nombres est la somme des erreurs relatives liees a chacun des 
nombres, 

18. Effect uer les developpements de Taylor suivants a l’ordre demand e. 
Utiliser la forme de F equation 1.28. Donner Fexpression analytique 
du terme d’erreur. Donner egalement une borne superieure de Ferreur 
lorsque c’est possible. 

a) cos(z) autour de xq = 0 (ordre 8) 

b) sin(z) autour de xq = 0 (ordre 9) 

c) arctan(x) autour de zq = 0 (ordre 5) 

d) cos(x) autour de zq = n/2 (ordre 7) 

e) sin(x) autour de z 0 = tt/ 2 (ordre 8) 
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19. Evaluer les erreurs commises dans revaluation des fonctions suivantes. 
Tons les chiffres fournis sont significatifs. lndiquer le no mb re de chiffres 
significatifs du resultat. 

a) ln(x) en x * = 2,01 

b) arctan(x) en x* — 1,0100 

c) x 8 en i* = 1,123 

d) (sin(x)) 2 en x* = 0,11 

20. Evaluer les erreurs commises dans revaluation des fonctions de plu- 
sieurs variables suivantes. Tous les chiffres fournis sont significatifs* 
lndiquer le nombre de chiffres significatifs du resultat. 

a) x 2 y 3 en x* = 12,1, y* = 3,721 

b) -xyz en x* = 1,260, y* = 0.5 x 10“ 3 , = 12,93 

21. A l’aide d’une methode numerique, on a evalue la derivee d’une fonc- 
tion pour deux valeurs de h. 



h 


n* 0 ) 


Erreur absolue 


0,1 

0,05 


25,3121 
25,312 475 


0,0004 
0,000 025 



a) Donner le nombre de chiffres significatifs de chaque approximation 
et arrondir au dernier chiffre significatif. 

b) Quel est Pordre de la methode de differentiation numerique utilisee. 

22. a) Calculer le developpement de Taylor d’ordre 5, c’est-a-dire dont le 
terme d ’erreur est de type 0(h 5 ), de la fonction fix) = ln(x) autoiir 
de xq = 1. Donner Pexpression analytique du terme d ’erreur. 

b) A Paide de ce developpement, donner une approximation de ln(l,l). 
Par comparaison avec la valeur exacte (In 1,1 = 0,095 310179 8), don- 
ner le nombre de chifFres significatifs de rapproximation. 

c) Par quel facteur approximatif Perreur obtenue en b) serait-elle re- 
duite si on evaluait ln( 1,025) au moyen du developpement de Taylor 
obtenu en a)? (Ne pas faire les calculs.) 

23. En se servant d’un developpement de Taylor de la fonction arctanx 
autour de Xo = 0, on a obtenu les result at s suivants: 

arctan(0,4) = 0,380 714 667 (erreur absolue = 0,208 29 x 10 -3 ) 
arctan(0,l) = 0,099 668667 (erreur absolue ~ 0,1418 X 10 -7 ) 
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b) Poser x = — t 2 dans le devetoppement en a) et obtenir le develop- 
pement de Taylor de: 

1 

l + t 2 

c) Integrer l’expression obtenue en b) et obtenir le developpement de 
Taylor d’arctani. 

d) Utiliser Pexpression obtenue en a) et obtenir le developpement de 
Taylor de ln(l + a;). (Remplacer x par —x en premier lieu.) 

25. La fonction d’erreur f(x ) est deiinie par: 




Pour en obtenir le developpement de Taylor , on peut suivre les etapes 
suivantes: 

a) Obtenir le developpement de Taylor de e~ x . (Limiter le developpe- 
ment aux 6 premiers termes.) 

b) Deduire de a) le developpement de Taylor de e ~* 2 . 

c) Deduire de b) le developpement de Taylor de f(x ). 

d) Donner une approximation de /( 1) en utilisant les 4 premiers termes 
de son developpement de Taylor. 

e) Quel est Pordre de Papproximation obtenue en d)? 

f) Donner le nombre de chiffres significatifs de Papproximation obtenue 
en d) en la comparant avec la valeur exacte /( 1) = 0,842 701. 





Chapitre 2 

* 

Equations non lineaires 



2.1 Introduction 

Le numericien est souvent confronts a la resolution d’equations alge- 
briques de la forme: 

/(*) = 0 ( 2 . 1 ) 

et ce dans toutes sortes de contextes. Introduisons des niaintenant la termi- 
nologie qui nous sera utile pour traiter ce probleme. 



Definition 2.1 

Une valenr de x solution de f(x) = 0 est appelee une racine ou un zero 
de la fonction f(x) et est notee r. 



Nous avons tous appris au secondaire comment resoudre Pequation du second 
degre: 

ax 2 -f + c — 0 

dont les deux racines sont: 

—b i *JW~— 4ac 

2 a 

Certains ont egalement vu comment calculer les racines d’une equation du 
troisieme ordre et se souviennent que la for mule est beaucoup plus com- 
plexe. On peut aussi obtenir une formule generale pour le quatrieme degre. 
Par contre, la plupart des etudiants ignorent qu’il n’existe pas de formule 
permettant de trouver les racines des polynomes de degre plus grand ou egal 
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a 5* Non pas que les mathematiciens ne Latent pas encore trouvee, mais 
Galois 1 a demontre que cette formuie n’existe pas. 

PuisquMl n’existe pas de formuie geuerale pour des fonctions aussi simples 
que des polynomes, il est peu probable que Ton puisse resoudre analytique- 
ment l’equation 2.1 dans tous les cas qui nous interessent. II faudra done 
recourir aux methodes numeriques. Dans ce qui suit, nous present ons plu- 
sieurs techniques de resolution, chacune ayant ses avantages et ses inconve- 
nient s. Nous tacherons de mettre en evidence ces avantages et inconvenients 
de fagon a tirer le meilleur parti de chacune des methodes proposees. 

H faudra egalement se souvenir des enseignements du chapitre precedent 
pour eviter de developper des algorithmes numeriquement instables. 



2.2 Methode de la bissection 



La methode de la bissection repose sur une idee toute simple, a savoir 
qu’en general, de part et d’autre d’une sointion de Tequation 2*1, une fonction 
continue f{x) change de signe et passe du positif au negatif ou vice versa 
(voir la figure 2.1). De toute evidence, ce n’est pas toujours le cas puisque 
la fonction f(x) peut aussi etre tangente a l’axe des x (voir la figure 2.2). 

Supposons pour l’instant qu’il y ait effectivement un changement de signe 
autour d’une racine r de f(x ). Nous nous occuperons des cas pathologiques 
un peu plus tard. Soit [xi,ar 2 ] J un intervalle ayant un changement de signe, 
e’est-a-dire: 

/(il) x f(x 2 ) < 0 (2.2) 



On pose alors: 






xi + x 2 
2 



qui est bien sur le point milieu de Pintervalle. Il suffit alors de determiner, 
entre les intervalles [xi^x m ] et celui qui possede encore un chan- 

gement de signe. La racine se trouvera forcement dans cet intervalle. A la 
premiere iteration de la figure 2,1, ce serait Pintervalle [x^, x 3 ], tandis qu*ala 
deuxieme iteration ce serait [xj, x m ]. CeJa nous amene aPalgorithme suivant. 



*Le mathematiden Evariste Galois (1811-1832) fut tue dans un duel a Page de 
21 ans, non sans avoir eu le temps d’apporter une contribution considerable a la theo- 
rie des groupes. 
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Algorithme 2.1: Algorithme de la bisection 

L Etant donne un intervalle pour lequel f(x) possede un change- 

ment de signe 
* 

2 . Etant donne t, le critere d’arret, et jV, le nombre maximal d’iterations 

3, Poser: 

X! + x 2 

X ra — 



4. Si 



\*2 ~ Sl| 
2\x m \ 



< e: 



• convergence atteinte 

• ecrire la racine x m 

• ecrire f{x m ) 

• arret 



5. Ecrire x u x 2 , x m , /(ii), /(x 2 ), f(x m ) 

6. Si f(x i) x f(x m ) < 0, alors x 2 = x m 

7. Si f{x m ) x J(x 2 ) < 0, alors Xj = x m 

8. Si le nombre maximal d ’iterations N est atteint: 



• convergence non atteinte en N iterations 

• arret 



9. Retour a Pet ape 3 □ 



L’expression: 

1*2- Jii 

2 |* ra | 

est une approximation de l’erreur relative, En effet> a Pet ape 3 de Palgorithme 
de la bissection, la racine recherchee est soit dans PintervaJle [xj, x m ] ou dans 
Pintervalle [a: m , x 2 ] 7 qui sont tous deux de longueur: 

£2 - xi 



2 




* 
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ce qui constitue une borne superieure de l’erreur absolue, En divisant pax 
z m , on obtient une approximation assez liable de Perreur relative. 

Remarque 2*1 

Dans Palgorithme precedent, il faut prendre garde au cas ou la racine re- 
cherchee est 0. II y a alors risque de division par 0 au cours de revaluation 
de Perreur relative, Ce cas est toutefois rare en pratique. □ 



Remarque 2.2 

II est parfois utile d ’introduce un test d ’arret sur la valeur de /(x), qui doit 
tendre egalement vers 0. □ 



Exemple 2*1 

La fonction f(x) = x 3 + x 2 — 3® — 3 possede un zero dans Pintervalle [1,2]. 
En effet: 

/( 1) x /(2) = —4,0 x 3,0 = —12,0 < 0 

On a alors x m = 1,5 et /(1,5) = —1,875. L’intervalle [1,5 , 2] possede encore 
un changement de signe, ce qui n’est pas le cas pour Pintervalle [1, 1,5], 
Le nouvel intervalle de travail est done [1,5, 2], dont le point milieu est 
x m - 1,75. Puisque /(1,75) = 0,17187, on prendra Pintervalle [1,5, 1,75] et 
ainsi de suite, Le tableau suivant resume les resultats. 





x 2 




f( x i) 


f( x 2 ) 


f{ x m) 


Erreur absolue 
liee ax m 


1,0 


| 


1,5 


-4,0 


MEM 


-1,875 


0,5 


1,5 


1 


1,75 


-1,875 


WBm 


+0,171 87 


0,25 


1,5 


1,75 


1,625 


-1,875 


0,17187 


-0,943 35 


0,125 


1,625 


1,75 


1,6875 


-0,943 35 


0,171 87 


-0,40942 


0,0625 


1,6875 


1,75 


1,718 75 


-0,40942 


0,17187 


-0,124 78 


0,031 25 



On remarque aisement que la longueur de 1 ’intervalle entourant la racme 
est divisee par deux a chaque iteration. Cette constatatlon permet de deter- 
miner a Pavance le nombre d ’iterations necessaires pour obtenir une certaine 
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erreur absolue Ar sur la racine r. Soit L = s 2 — la longueur de Pintervalle 
de depart. Apres une iteration, le nouvel intervalle est de longueur L/2 et 
apres n iterations la longueur de Tintervaile est: 

_L 

2 n 

Si on veut connaitre la valeur de n necessaire pour avoir: 



L 

— < A r 
2 ” 



il suffit de resoudre cette equation en fonction de n et on trouve la condition: 



n > 



HM 

In 2 



(2.3) 



II est clair que, sur le plan pratique, on doit prendre pour valeur de n le plus 
petit entier verifiant cette condition. 



Exemple 2.2 

Dans Texemple precedent, L = 2,0 — 1,0. Si on veut une erreur absolue plus 
petite que 0,5 x 10“ 2 , ce qui revient a s Assurer que le chiffre des centiemes 
est significatif, il faut effectuer au moins: 

ln (o,5x’lO-a) , . 

= 7,64 iterations 

In 2 

On fera done 8 iterations pour s’assurer de cette precision. On peut aisement 
verifier qu’apres 8 iterations Perreur maximale liee a est de 0,003 906 25 
et que la veritable erreur est 0,001 582. 



Exemple 2.3 

On souhaite calculer y/2 avec une calcnlatrice dotee seulement des 4 opera- 
tions element aires. Cela revient a resoudre: 



x 2 - 2 = 0 
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Cette fonction presente un changement de signe dans Pintervalle [1,2], 
L’algorithme de la bissection donne les resultats suivants avec £ = 10“ 3 . 



*1 






/ 00 


/OO 


f( x m) 


(*m)2 


1,0 


2,0 


1,5 


-1,0 


2,0 


+0,25 1 


1,1 


1,0 


1,5 


1,25 


-1,0 


0,25 


-0,4375 


1,01 


1,25 


1,5 


1,375 


-0,4375 


0,25 


-0,1094 


1,011 


1,375 


1,5 


1,4375 


-0,1094 


0,25 


+0,066 41 


1,0111 


1,375 


1,4375 


1,4062 


-0,1094 


0,06641 


-0,022 46 


1,01101 


1,4062 


1,4375 


1,4219 


-0,02246 


0,06641 


+0,021 73 


1,011011 


1,4062 


1,4219 


1,4141 


-0,022 46 


0,021 73 


-0,00043 


1,0110101 


1,4141 


1,4219 


1,4180 


-0,00043 


0,021 73 


+0,010 64 


; 


1,4141 


1,4180 


1,4160 


-0,00043 


0,010 64 


+0,005 10 




1,4141 


1,4160 


1,4150 


-0,000 43 


0,00510 


+0,002 33 




1,4141 


1,4150 


1,4146 


-0,00043 


0,002 33 


+0,000 95 




1,4141 


1,4146 


1,4143 


—0,00043 


0,00095 


+0,000 26 





On a arrondi a 5 chiffres les resultats de ce tableau. La racine trouvee 
est alors 1,414 184 57, ce qui se rapproche de la valeur exacte (a 10 chiffres 
significatifs) 1,414 213 562. Cet exemple est particulierement interessant du 
point de vue de la representation binaire. En effet, Pinter valle de depart etant 
[1,2] et puisque les nombres 1 et 2 possedent des representations binaires 
exactes, chaque iteration de la methode de la bissection permet de fixer 
1 bit de la representation binaire de la racine. A la (n + l) e iteration, on est 
assure que les n premiers bits de la mantisse de x m sont exacts. On peut 
constater ce phenomene a la derniere colonne du tableau, qui contient la 
representation binaire de + 



Remarque 2*3 

La convergence de la methode de la bissection n’est pas tres rapide, mais elle 
est sure a partir du moment ou on a un intervalle avec changement de signe. 
On parle alors de methode fermee , car on travaille dans un intervalle ferme. 
C’est egalement le cas de la methode de la fausse position (voir les exercices de 
fin de chapitre). Les methodes des sections qui suivent sont dites owertes en 
ce sens qu’il n’y a pas d ’intervalle a determiner ayant un changement de signe. 
Au contraire des methodes fermees, les methodes ouvertes ne garantissent 
nullement la convergence, mais elles possedent d’autres avantages. □ 





f 
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Remarque 2*4 

II existe des cas ou la methode de la bisection achoppe. La figure 2.2 illustre 
certains de ces cas. La premiere situation critique est celle ou la fonction f(x) 
est tangente a Paxe des x et ne presente done pas de changement de signe. 
La bissection ne petit alors s’appliquer. II y a anssi celle ou deux racines 
(ou un nombre pair de racines) sont present es dans l’intervalle de depart; 
en ce cas, il n’y a toujours pas de changement de signe. Enfin, si 1 ’inter valle 
de depart contient un nombre impair de racines, f{x) change de signe mais 
Palgorithme peut avoir des difficultes a choisir parmi ces racines. On peut 
assez facilement e viter ces ecueils en illustrant graphiquement la fonction 
f(x) dans l’intervalle d’interet. □ 



2.3 Methodes des points fixes 

Avant d’aborder les methodes des points fixes, il import e de definir ce 
qu’est un point fixe d’nne fonction. 



Definition 2.2 

Un point fixe d’une fonction g(x ) est une valeur de x qni reste invariante 
pour cette fonction, e’est-a-dire toute solution de: 

X = g(x) (2.4) 

est un point fixe de la fonction 0 ( 2 ). 



II existe nn algorithme tres simple permettant de determiner des points 
fixes. Il snffit en effet d’effectuer les iterations de la fa^on suivante: 



xo donne 

^n+l “ 0(^71) 



(2.5) 



a partir d’une valeur estimee initiale Xo- L’interet de cet algorithme reside 
dans sa generality et dans la relative facilite avec laquelle on peut en faire 
Panalyse de convergence. U en resulte Palgorithme plus complet suivant. 
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Algorithme 2.2: Algorithme des points fixes 

1. Etant donne e y un critere d^arret 

2. Etant donne A r , le nombre maximal d Iterations 

3. Etant donne xo, une valeur estimee initiale dn point fixe 

4. Effectuer x„ + i = g{x n ) 

5. Si |Xn , +1 ~ < £: 

Fn+l| 

• convergence atteinte 

• ecrire la solution x n +\ 

• arret 

6. Si le nombre maximal d’ite rat ions N est atteint: 

• convergence non atteinte en N iterations 

• arret 

7. Retour a l’etape 4 □ 

On peat resoudre des equations non lineaires de la forme f(x) = 0 en 
utilisant l’algorithme des points fixes. II suffit pour ce faire de transformer 
T equation f(x) = 0 en un probleme equivalent de la forme x — g(x). L ’ennui, 
c’est qu’il y a une infinite de fagons differentes de le faire. Nous verrons que 
certains choix donnent lieu a des algorithmes convergents et d’autres pas. 

Exemple 2 A 

Commengons par un exemple simple. On cherche a resoudre Tequation du 
second degre x 2 — 2x — 3 = 0. II n’est pas necessaire de recourir aux methodes 
numeriques pour resoudre ce probleme, dont les deux solutions sont T\ — 3 
et T 2 = —1- Cet exemple permet cependant de mieux comprendre ce qui se 
passe lorsqu’on utilise Palgorithme des points fixes. Pnisqu’il y a une infinite 
de fagons differentes de transformer cette equation sous la forme x = g(x ), 
nous en choisissons trois au hasard. Vous pouvez bien sur recourir a d’autres. 
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X = 


y/2x + 3 = ffj(x) 


(en isolant a: 2 ) 




X “ 


H 

1 W 
to 

II 

w 


(en ecrivant x{x - 2) — 3 


~ °) (2.6) 


X = 


X 2 -3 f 

2 = flat®) 


(en isolant le x de — 2x) 




Si on applique Talgorithme des points fixes a chacune des fonctions gi{x) en 
part ant de x 0 = 4, on obtient pour pi(x): 


Xi = 


fli(4) 


y/2 X 4 + 3 


3,316 6248 


*2 = 


Si(3, 316 6248) = 


i/2 x 3,3166248+ 3 = 


3,103 7477 


x 3 = 


(?i(3,103 7477) = 


i/2 X 3,103 7477+3 = 


3,034 3855 


x 4 = 


ffi(3, 034 3855) = 


a/2 x 3,034 3855 + 3 = 


3,011 4402 


*10 = 


Si(3, OOO 0470) = 


i/2x3,0000470+ 3 = 


3,000 0157 



L’algorithme semble done converger vers la racine r± = 3. 
cice avec g2 ( x ) 7 toujours en partant de a; 0 = 4: 


Reprenons l’exer 


x i 


= fl2{4) 


H 

CM 
CO | 

II 


1,5 


x 2 


= 52(1,5) 


3 

1,5-2 


- 6,0 


x 3 


= fl 2 (- 6 , 0 ) 


3 

- 6,0 - 2 


-0,375 


x 4 


= fl 2 (-0,375) 


3 

-0,375 - 2 


-1,263 1579 


x 10 


3 

= g 2 { 0,998 9841) = 

y2K 7 } -0,998 9841 -2 


-1,0003387 



On remarque que, contrairement au cas precedent, les iterations convergent 
vers la racine r2 = — 1 en ignorant la racine ri = 3. En dernier lieu, essayons 
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Palgorithme avec la fonction 0 3 (a:): 



*1 


= 93(4) 


(4) 2 ~ 3 
2 


= 6,5 


22 


= 93(6,5) 


(6,5) 2 - 3 
2 


= 19,625 


23 


= 33(19,625) 


(19,625) 2 — 3 
2 


= 191,0703 


X4 


= 3 3 (191,0703) 


(191,0703) 2 - : 
2 


- = 18252,43 



Visiblement, les iterations tendent vers Pinfini et aucune des deux solutions 
possibles ne sera atteinte. 

Get exemple montre clalrement qne Palgorithme des points fixes, selon le 
choix de la fonction iterative g(x ), converge vers Tune ou P autre des racines 
et peut meme diverger completement dans certains cas. II faut done une 
analyse plus fine afin de determiner dans quelles conditions la methode des 
points fixes est convergente. 



2.3,1 Convergence de la methode des points fixes 

Nons nous interessons dans cette section au comportement de la methode 
des points fixes pour la resolution de Pequation f(x) = 0. On a d T abord 
transforme cette equation sous la forme equivalente x = 0(2:). Soit r, une 
valeur qui est a la fois une racine de f(x ) et un point fixe de la fonction g(z), 
e’est-a-dire qui verifie /(r) = 0 et: 

r = sr(r) (2.7) 

On definit Perreur a Petape n comme etant: 

€-71 ^71 ^ 

On cherche a determiner sous quelles conditions Talgoritlime des points fixes 
converge vers la racine r. Ce sera bien sur le cas si Perreur e n tend vers 
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0 lorsque n devient grand. II est interessant de suivre le comport ement de 
Perreur au fil des iterations. On a en vertu des relations 2.5 et 2.7: 



^Tl+l — ^Tl+1 ^ — 5(^71) (2*8) 

On constate aisement que: 

x n — r + ” T T Cn 

et on pent alors utiliser un developpement de Taylor de la fonction g(x) 
autour de la racine t\ La relation 2.8 devient alors: 

e. 1+1 = 9{r + e„) - g(r) 



= Ur) + Ar)en + ^ + ^ + -A- 8 ir) 



On en conclut que: 



Cn+i = g’(r)e„ + 



9"(r)e 2 n , 9'”{r)el 



+ 



3! 



+ 



(2.9) 



L’etnde de la relation 2.9 est fondamentale pour la comprehension des me- 
thodes de points fixes. An voisinage de la racine r, le premier terme non nnl 
de Pexpression de droite sera determinant pour la convergence. 

Selon Pequation 2.9, si </(r) ^ 0 et si on neglige les termes d’ordre 
superieur on egal a 2 en e ny on a: 



en+l ^ 



( 2 . 10 ) 



On voit qne Perrenr a Petape (tiH- 1) est directement proportionnelle a Perreur 
a Petape n , L’erreur ne pourra done diminner qne si: 



\g’(r)\ < 1 (2.11) 

La condition 2.11 est une condition necessaire de convergence d*une met bode 
de points fixes. On remarque egalement que le signe de g f (r) a une influence 
sur la convergence. En efFet, si: 



-1 < g\r) < 0 



Perrenr cliangera de signe a chaque iteration en vertu de Pequation 2,10 et 
les valeurs de x n oscilleront de part et d’autre de r. La convergence n*en sera 
pas moins assuree. 




66 



Chapitre 2 



La relation 2.10 donne de plus la vitesse a iaquelle l’erreur diminue. En 
effet, pins g r (r) est petit, plus l’erreur diminue vite et done plus la conver- 
gence est rapide. Cela nous amene a la definition suivante. 



Definition 2.3 

Le taux de convergence d’une methode de points fixes est donne par |5 / (r) | - 



Plus le taux de convergence est petit, plus la convergence est rapide, Le 
cas limite est celui ou g\r) — 0. Dans ce cas, on deduit de l’equation 2.9 
que l’erreur e n+1 est proport ionnelle a Cela nous amene a une autre 
definition. 



Definition 2.4 

On dit qn’nne methode de points fixes converge d Uordre p si: 

K + i|^CK| p (2.12) 

ou C est nne const ante. La convergence d’ordre 1 est egalement dite 
lineaire , tandis que celle d’ordre 2 est dite quadratique. 



Remarque 2.5 

Si |< 7 '(r)| < 1 et |^'(r)| / 0, la methode de points fixes converge a Tordre 1. 
Si j</(r)| = 0 et |^'(r)| / 0, on a une convergence quadratique; si ](/(r)| — 
\g ft {r ) | = 0 et \g fff (r)\ / 0, la convergence est d’ordre 3; et ainsi de suite. □ 



Remarque 2.6 

La convergence d’une methode de points fixes est egalement assujettie au 
choix de la valenr initiale Xq. En effet, un mauvais choix de x 0 pent resulter 
en un algorithme divergent meme si la condition 2.11 est respectee. n 



Cela nons amene a definir le bassin detraction d’nne racine r. 






/ 

Equations non lineaires 



67 



Definition 2.5 

Le bassin d ’attraction de la ratine r pour la methode de points fixes 
x n+ i = 5(^71) est Pensemble des valeurs initiales eq pour lesquelles x n 
tend vers r lorsque n tend vers Pinfini. 



En d’autres termes, le bassin detraction de r comprend tous les points 
£0 pour lesquels la methode de points fixes converge vers r. Pour s’assurer 
de la convergence, il faut done choisir dans le bassin detraction de r. 
Intuitivement, on choisit xq aussi pres que possible de r en utilisant par 
exemple une methode graphique. II faut aussi se souvenir que les problemes 
rencontres proviennent le plus sou vent de Pingenierie et que le numericien 
doit ntiliser ses connaissances pour estimer x 0 . Par exemple, si la ratine que 
Pon cherche correspond a une longueur ou a une concentration, il serait peu 
raisonnable de prendre une vaJeur negative de Xq. Tres souvent, le simple 
bon sens permet de choisir xq avec succes. 



Definition 2.6 

Un point fixe r de la fonction g(x) est dit attractif si: 



IflVJt < 1 



et repulsif si: 



> 1 



Le cas ou |5 / ( r )l = 1 est indetermine. 



Exemple 2.5 

Considerons la fonction g(x) = x 2 qui possede les points fixes x = 0 et x = 1. 
Ce dernier est repulsif, caj la derivee de 5(0:) (2a:) vaut 2 en x = L Le seul 
point fixe interessant est done x = 0, La methode des points fixes engendre, 
a paxtir de la valeur initiale Xq, la suite: 






O’ ^01 



.16 
0 1 



x 



32 

0 



Cette suite convergera vers 0 seulement si #0 € ] — 1, 1[. Ce dernier intervalle 







68 



Ch&pitre 2 



constitue done le bassin detraction de ce point fixe, Toute valeur de Xq 
choisie a Pexterieur de cet intervaUe resultera en un algorithme divergent. 



Remarque 2.7 

Dans le cas d’un point fixe repulsif, le bassin detraction se reduit a pen de 
choses, le plus sou vent a Pensemble {r} constitue d’un seul point. □ 



Le result at suivant permet dans certains cas de s ’assurer de la conver- 
gence (voir Burden et Faires, ref. [2]), 



Theoreme 2.1 

Soit g(x ) , une fonction continue dans Pintervalle I = [a, 6] et telle que 
#(r) £ / pour tout x dans I. Si de plus g f (x) existe et si: 

|j'(z)l <k <1 

pour tout x dans Pintervalle ouvert (a, b), alors tous les points x 0 de 
Pinter valle I appartiennent au bassin d ’attraction de V unique point fixe r 
de I. □ 



Remarque 2.8 

II est possible que la methode des points fixes converge dans le cas ou: 

WW = 1 

D s’agit d J un cas limite interessant. Nous verrons plus loin un exemple de 
cette situation. La convergence dans ce cas est au mieux extremement lente, 
car le taux de convergence est pres de 1. n 



Exemple 2.6 

Revenons aux trois fonctions gi(x) de Pexemple precedent. On veut s ’assurer 
que la condition 2.11 est verifiee a Pune ou Pautre des racines n = 3 et 
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r 2 = —1* On doit d’abord calculer les derivees; 

“**> = V5?n 
si(l) = 

J3(*) = * 

Les resultats sont compiles dans le tableau suivant. 





ri = 3 


r 2 = -1 


9i(r) 

s'ii r ) 

9 a(r) 


0,333 33 
—3 
3 


1 

-0,333 33 
-1 



Ce tableau aide a comprendre les resultats obtenus precedemment. La 
methode de points fixes appliquee a ^i(ar) a converge vers rq = 3, puisque 
ffi(3) < 1, De meme, avec 52(3:), la methode de points fixes ne peut converger 
vers r 1 = 3, car la derivee de £2(2:) en ce point est plus grande que 1. Les 
iterations ignorent /q et convergent vers r 2 , ou la valeur de la derivee est 
inferieure a 1. 

Enfin, la fonction £3(2) a egalement une derivee plus grande que 1 en 
Tj. L’analyse de la convergence autour de r2 = — 1 est plus subtile, En 
efFet, puisque ^(x) = x, on constate que la valeur absolue de la derivee 
est inferieure ala droite de r 2 et superieure ala gauche de r2- De plus, 
cette derivee est negative, ce qui signifie que la methode des points fixes 
oscillera de part et d ’autre de la racine. A une iteration, la pente g f (x n ) sera 
inferieure a 1 et k Piteration suivante la pente g f (x n +i) sera superieure a 1 en 
valeur absolue. On en conclut que Paigorithme de points fixes s’approchera 
legerement de r 2 a une iteration et s’en eloignera a la suivante. En un mot, 
Paigorithme pietinera. On peut verifier ce raisonnement en effectuant les 
iterations a partir de x 0 = —0,95- On obtient apres 10 000 iterations la valeur 
^10000 = ^0,986 36, ce qui signifie que la convergence est extremement lente. 
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Exemple 2*7 

Considerons la fonction g(x) = x 2 + 1/4 dont P unique point fixe est 1/2* 
On a bien sur g f (x) — 2x 1 qui vaut pr easement 1 en 1/2. En partant de 
xq = 1/4, on obtient la valeur 0*499009 5 apres 1000 iterations et done nne 
convergence tres lente* Cela s’explique par le fait qne la derivee de g(x) 
est legerement inferieure a 1 pour les valeurs de x inferieures a 1/2 et que 
les resultats des iterations restent toujours inferieurs a 1/2. Par contre, en 
partant de xq = 0,51, Palgorithme diverge violemment apres une centaine 
d’iterations. On constate aisement que la derivee de g(x) est superieure a 1 
pour les valeurs de x superieures a 1/2* 

• • « • « 



2.3,2 Interpretation geometrique 

L’algorithme de points fixes possede une interpretation geometrique tres 
elegante qui permet d’illustrer la convergence ou la divergence. La figure 2.3 
presente les differents cas possibles: 0 < </(r) < 1, -1 < g f (r) < 0 et 
g f (r) > 1. On peut interpreter cette figure de la maniere suivante. Les courbes 
y = x et y = g(x) sont representees et les points fixes sont bien entendu a 
Tintersection de ces deux courbes* A partir de la valeur initiate Xo, on se 
rend sur la courbe y — g(x) au point (xo,i?(^o)) et de la sur la droite y == x 
au point (^(x 0 ), </(xo)), qui est en fait (xi,xi). On recommence le meme 
processus a partir de xi pour se rendre a (x\,g(xi)) et de la sur la droite 
y — x au point (</(xi),£(xi)) = (x 2 ,X 2 )* On repete ce trajet jusqu’a la 
convergence (ou la divergence) de Palgorithme. 

On voit immediatement la difference de comportement entre les cas 
convergent s 0 < g f (r) < 1 et — 1 < g f (r) < 0. Bien que les iterations oscillent 
de part et d ’autre de la racine lorsque la pente est negative, la convergence 
n’en est pas moins assuree* Par contre, lorsque la pente est superieure a 1, 
les iterations s’eloignent de la racine recherchee. On obtiendrait un resultat 
similaire dans le cas ou g*( r ) < — 1; les iterations s’eloigneraient de la racine 
en oscillant de part et d ’autre de la racine. 

Nous terminons cette section par un dernier exemple qui illustre la conver- 
gence generalement lineaire des methodes de points fixes. 
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Exemple 2.8 

On considere la resolution de x = 0, que Pon transforme en un probleme 
de points fixes x = e~ x . En part ant de xq = 0 et en posant e n — x n — r, 
Perreur a Petape n, on obtient le tableau suivant. 



n 


x n 


kn| 








1 


1,000 0000 


0,4328 X 10+° 




— 




2 


0,367 8794 


0,1992 x 10+° 


0,4603 


3 


0,692 2006 


0,1250 x 10 +o 


0,6276 


4 


0,5004735 


0,6667 x lO" 1 


0,5331 


5 


0,606 2435 


0,3910 x 10 _1 


0,5864 


6 


0,545 3957 


0,2174 x lO" 1 


0,5562 


7 


0,579 6123 


0,1246 x 10 _1 


0,5733 


14 


0,566 9089 


0,2344 x 10 -3 


0,5670 


15 


0,567 2762 


0,1329 X 10“ 3 


0,5672 


» 

35 


0,567 1433 


~ 0 


0,5671 



Pour remplir ce tableau, on a d’abord calcule la racine r = 0,567 143 29, ce 
qui a permis d’evaluer les erreurs par la suite. 1/ analyse de ce tableau ib 
lustre plusieurs points deja discutes. En premier lieu, on constate la conver- 
gence vers la racine r = 0,567143 29 puisque l’erreur e n tend vers 0. Fait 
plus important encore, la troisieme colonne converge vers environ 0,5671. Ce 
nombre n’est pas arbitraire. En effet, en vertu de la relation 2.10, ce ratio 
doit converger vers qui vaut dans cet exemple 0,56714. On constate 

bien la convergence de ce ratio vers |t/(r)j pour cet exemple. 



2.3.3 Extrapolation d’Aitken 

V 

A partir d’une methode de points fixes convergeant a Pordre 1, on peut 
obtenir une methode convergeant a Pordre 2. II suffit de remarquer que pour 
une methode d’ordre 1: 



■<?2 =* g '( r ) € 1 





